Le guide du débutant absolu sur les DataFrames Pandas

En arrière-plan, apprendre Python pour l’analyse de données a été un peu difficile. La syntaxe est plus simple – vraie. Cependant, le langage et la terminologie sont complètement différents. En SQL, vous devrez interagir avec des bases de données, des tables et des colonnes. En Python, cependant, pour l’analyse des données, votre pain quotidien sera constitué de structures de données.

Les structures de données en Python sont comme des objets de stockage de données. Python comprend plusieurs structures de données intégrées, telles que des listes, des tuples, des ensembles et des dictionnaires. Tous ces éléments sont utilisés pour stocker et manipuler des données. Certains sont mutables (listes) et d’autres non (tuples). Pour en savoir plus sur les structures de données Python, je recommande fortement de lire le livre « Python pour l’analyse des données » par Wes McKinney. Je viens de commencer à le lire et je le trouve génial.

Dans cet article, je vais vous expliquer ce qu’est un DataFrame dans Pandas et comment en créer un étape par étape.

Comprendre les principes fondamentaux des baies

Il existe une bibliothèque en Python appelée NumPy ; vous en avez peut-être entendu parler. Il est principalement utilisé pour les calculs mathématiques et numériques. L’une des fonctionnalités qu’il offre est la possibilité de créer des tableaux. Vous vous demandez peut-être. Qu’est-ce qu’un tableau ?

Un tableau est similaire à une liste, sauf qu’il stocke uniquement les valeurs du même type de données. Les listes, cependant, peuvent stocker des valeurs de différents types de données (int, texte, booléen, etc.). Voici un exemple de liste

my_list = [1, “hello”, 3.14, True]

Les listes sont également mutables. En d’autres termes, vous pouvez ajouter et supprimer des éléments.

Revenons aux tableaux. Dans Numpy, les tableaux peuvent être multidimensionnels — c’est ce qu’on appelle des ndarrays (tableaux à N dimensions). Par exemple, importons la bibliothèque Numpy en Python.

import numpy as np

Pour créer un tableau de base dans Numpy, nous utilisons le np.array() fonction. Dans cette fonction, notre tableau est stocké.

arr = np.array([1, 2, 3, 4, 5])
arr

Voici le résultat :

array([1, 2, 3, 4, 5])

Pour vérifier le type de données.

type(arr)

Nous obtiendrons le type de données.

numpy.ndarray

Ce qui est intéressant avec les tableaux, c’est que vous pouvez y effectuer des calculs mathématiques. Par exemple

arr*2

Le résultat :

array([ 2, 4, 6, 8, 10])

Plutôt cool, non ?

Maintenant que vous connaissez les bases des tableaux dans Numpy. Approfondissons les tableaux à N dimensions.

Le tableau que vous voyez ci-dessus est un tableau unidimensionnel (1D). Également appelés tableaux vectoriels, les tableaux 1D sont constitués d’une séquence de valeurs. Comme ça, [1,2,3,4,5]

Tableaux à 2 dimensions (Matrice) peut stocker des tableaux 1D comme valeurs. Semblable aux lignes d’une table en SQL, chaque tableau 1D est comme une ligne de données. La sortie est comme une grille de valeurs. Par exemple:

import numpy as np
arr = np.array([[1, 2, 3], [4, 5, 6]])
arr

Sortir:

[[1 2 3]
[4 5 6]]

Tableaux tridimensionnels (Tenseurs) peut stocker des tableaux 2D (matrices). Par exemple,

import numpy as np
arr = np.array([[[1, 2, 3], [4, 5, 6]], [[1, 2, 3], [4, 5, 6]]])
arr

Sortir:

[[[1 2 3]
[4 5 6]]
[[1 2 3]
[4 5 6]]]

Un tableau peut avoir un nombre infini de dimensions, selon la quantité de données que vous souhaitez stocker.

Créer un dataframe à partir d’un tableau

Maintenant que vous avez compris l’essentiel des tableaux. Créons un DataFrame à partir d’un.

Tout d’abord, nous devrons importer les bibliothèques pandas et NumPy

import pandas as pd
import numpy as np

Ensuite, créez notre tableau :

data = np.array([[1, 4], [2, 5], [3, 6]])

Ici, j’ai créé un tableau 2D. Pandas DataFrame ne peut stocker que des tableaux 1D et 2D. Si vous essayez de transmettre un tableau 3D, vous obtiendrez une erreur.

Maintenant que nous avons notre Array. Passons-le dans notre DataFrame. Pour créer un DataFrame, utilisez le pd.DataFrame() fonction.

# creating the DataFrame
df = pd.DataFrame(data)

# showing the DataFrame
df

Sortir

Ça a l’air bien jusqu’à présent. Mais cela nécessite un peu de mise en forme :

# creating a dataframe
df = pd.DataFrame(data, index=['row1', 'row2', 'row3'],
columns=['col1', 'col2'])

# showing the dataframe
df

Sortir

col1 col2
row1 1 4
row2 2 5
row3 3 6

Maintenant c’est mieux. Tout ce que j’ai fait a été de renommer les lignes en utilisant l’attribut index et les colonnes en utilisant l’attribut columns.

Et voilà, vous avez votre DataFrame. C’est aussi simple que cela. Explorons quelques façons plus pratiques de créer un DataFrame.

Créer un DataFrame à partir d’un dictionnaire

L’une des structures de données intégrées proposées par Python sont les dictionnaires. Fondamentalement, les dictionnaires sont utilisés pour stocker des paires clé-valeur, où toutes les clés doivent être uniques et immuables. Il est représenté par des accolades {}. Voici un exemple de dictionnaire :

dict = {"name": "John", "age": 30}

Ici, les clés sont le nom et l’âge, et les valeurs sont Alice et 30. C’est aussi simple que cela. Maintenant, créons un DataFrame à partir d’un dictionnaire.

names = ["John", "David", "Jane", "Mary"]
age = [30, 27, 35, 23]

Tout d’abord, j’ai créé une liste pour stocker plusieurs noms et âges :

dict_names = {'Names': names, 'Age': age}

Ensuite, j’ai stocké toutes les valeurs dans un dictionnaire et créé des clés pour les noms et l’âge.

# Creating the dataframe
df_names = pd.DataFrame(dict_names)
df_names

Ci-dessus, nous avons notre DataFrame stockant le dictionnaire que nous avons créé. Voici le résultat ci-dessous :

Names Age
0 John 30
1 David 27
2 Jane 35
3 Mary 23

Et voilà, nous avons un DataFrame créé à partir d’un dictionnaire.

Créer un DataFrame à partir d’un fichier CSV

C’est probablement la méthode que vous utiliserez le plus. Il est courant de lire des fichiers CSV dans les pandas lorsque l’on essaie d’effectuer une analyse de données. Semblable à la façon dont vous ouvrez des feuilles de calcul dans Excel ou importez des données dans SQL. En Python, vous lisez les CSV en utilisant le read_csv() fonction. Voici un exemple :

# reading the csv file
df_exams = pd.read_csv('StudentsPerformance.csv')

Dans certains cas, vous devrez copier le chemin du fichier et le coller sous la forme :

pd.read_csv(“C:\data\suppliers lists — Sheet1.csv”)

Sortir:

Et voilà !

Conclusion

Créer des DataFrames dans des pandas peut sembler complexe, mais ce n’est pas le cas. Dans la plupart des cas, vous lirez probablement des fichiers CSV de toute façon. Alors ne vous inquiétez pas. J’espère que vous avez trouvé cet article utile. J’adorerais entendre vos réflexions dans les commentaires. Merci d’avoir lu!

Voulez-vous vous connecter ? N’hésitez pas à nous dire bonjour sur ces plateformes

Gazouillement

YouTube

Moyen