
La visualisation des données expliquée (partie 4) : un examen des principes essentiels de Python
dans ma série de visualisation de données. Voir ce qui suit :
Jusqu’à présent dans ma série sur la visualisation de données, j’ai couvert les éléments fondamentaux de la conception de la visualisation. Il est essentiel de comprendre ces principes avant de concevoir et de créer des visualisations, car ils garantissent que les données sous-jacentes sont rendues justice. Si vous ne l’avez pas déjà fait, je vous encourage fortement à lire mes articles précédents (lien ci-dessus).
À ce stade, vous êtes prêt à commencer à créer vos propres visualisations. J’aborderai différentes manières de procéder dans de prochains articles et, dans l’esprit de la science des données, bon nombre de ces méthodes nécessiteront de la programmation. Pour vous assurer que vous êtes prêt pour cette prochaine étape, cet article consistera en un bref examen des principes essentiels de Python, suivi d’une discussion sur leur pertinence pour le codage des visualisations de données.
Les bases : expressions, variables, fonctions
Les expressions, les variables et les fonctions sont les principaux éléments constitutifs de tout le code Python, et même du code dans n’importe quel langage. Jetons un coup d’œil à leur fonctionnement.
Expressions
Un expression est une instruction qui donne une certaine valeur. L’expression la plus simple possible est une valeur constante de n’importe quel type. Par exemple, vous trouverez ci-dessous trois expressions simples : la première est un entier, la seconde est une chaîne et la troisième est une valeur à virgule flottante.
7
'7'
7.0
Les expressions plus complexes consistent souvent en des opérations mathématiques. Nous pouvons additionner, soustraire, multiplier ou diviser différents nombres :
3 + 7
820 - 300
7 * 53
121 / 11
6 + 13 - 3 * 4
Par définition, ces expressions sont évaluées en une seule valeur par Python, suivant l’ordre mathématique des opérations décrit par l’acronyme PEMDAS (Parenthèses, exposants, multiplication, division, addition, soustraction) [1]. Par exemple, l’expression finale ci-dessus est évaluée au nombre 7.0. (Voyez-vous pourquoi ?)
Variables
Les expressions sont excellentes, mais elles ne sont pas très utiles en elles-mêmes. Lors de la programmation, vous devez généralement enregistrer la valeur de certaines expressions afin de pouvoir les utiliser dans des parties ultérieures de notre programme. UN variable est un conteneur qui contient la valeur d’une expression et vous permet d’y accéder plus tard. Voici exactement les mêmes expressions que dans le premier exemple ci-dessus, mais cette fois avec leur valeur enregistrée dans diverses variables :
int_seven = 7
text_seven = '7'
float_seven = 7.0
Les variables en Python ont quelques propriétés importantes :
- Une variable nom (le mot à gauche du signe égal) doit être un seul mot et ne peut pas commencer par un chiffre. Si vous devez inclure plusieurs mots dans vos noms de variables, la convention est de les séparer par des traits de soulignement (comme dans les exemples ci-dessus).
- Vous n’êtes pas obligé de spécifier un type de données lorsque nous travaillons avec des variables en Python, comme vous avez peut-être l’habitude de le faire si vous avez de l’expérience en programmation dans un autre langage. C’est parce que Python est un typé dynamiquement langue.
- Un autre langage de programmation fait la distinction entre le déclaration et le affectation d’une variable. En Python, nous attribuons simplement les variables sur la même ligne que celle où nous les déclarons, il n’est donc pas nécessaire de faire la distinction.
Lorsque des variables sont déclarées, Python évaluera toujours l’expression à droite du signe égal en une seule valeur avant de l’attribuer à la variable. (Cela renvoie à la façon dont Python évalue les expressions complexes). Voici un exemple :
yet_another_seven = (2 * 2) + (9 / 3)
La variable ci-dessus est affectée à la valeur 7.0pas l’expression composée (2 * 2) + (9 / 3).
Fonctions
UN fonction peut être considéré comme une sorte de machine. Il prend quelque chose (ou plusieurs choses), exécute du code qui transforme le ou les objets que vous avez transmis et renvoie exactement une valeur. En Python, les fonctions sont utilisées pour deux raisons principales :
- Pour manipuler les variables d’entrée qui nous intéressent et obtenir une sortie dont nous avons besoin (un peu comme les fonctions mathématiques).
- Pour éviter la répétition du code. En regroupant le code dans une fonction, nous pouvons simplement appeler la fonction chaque fois que nous avons besoin d’exécuter ce code (au lieu d’écrire le même code encore et encore).
Le moyen le plus simple de comprendre comment définir des fonctions en Python est de regarder un exemple. Ci-dessous, nous avons écrit une fonction simple qui double la valeur d’un nombre :
def double(num):
doubled_value = num * 2
return doubled_value
print(double(2)) # outputs 4
print(double(4)) # outputs 8
Il y a un certain nombre de points importants concernant l’exemple ci-dessus que vous devez vous assurer de comprendre :
- Le
defLe mot-clé indique à Python que vous souhaitez définir une fonction. Le mot juste aprèsdefest le nom de la fonction, donc la fonction ci-dessus s’appelledouble. - Après le nom, il y a un ensemble de parenthèses, à l’intérieur desquelles vous placez les paramètres de la fonction (un terme sophistiqué qui désigne simplement les entrées de la fonction). Important : si votre fonction n’a besoin d’aucun paramètre, vous devez quand même inclure les parenthèses ; n’y mettez simplement rien.
- À la fin du
defDans l’instruction, deux points doivent être utilisés, sinon Python ne sera pas content (c’est-à-dire qu’il générera une erreur). Ensemble, toute la ligne avec ledefla déclaration est appelée la signature de fonction. - Toutes les lignes après le
defL’instruction contient le code qui constitue la fonction, en retrait d’un niveau vers l’intérieur. Ensemble, ces lignes constituent le corps de fonction. - La dernière ligne de la fonction ci-dessus est la déclaration de retourqui spécifie la sortie d’une fonction utilisant le
returnmot-clé. Une instruction return ne doit pas nécessairement être la dernière ligne d’une fonction, mais une fois rencontrée, Python quittera la fonction et plus aucune ligne de code ne sera exécutée. Les fonctions plus complexes peuvent avoir plusieurs instructions return. - Toi appel une fonction en écrivant son nom et en mettant les entrées souhaitées entre parenthèses. Si vous appelez une fonction sans entrée, vous devez toujours inclure les parenthèses.
Python et visualisation de données
Maintenant, permettez-moi d’aborder la question que vous vous posez peut-être : pourquoi toute cette revue de Python pour commencer ? Après tout, il existe de nombreuses façons de visualiser les données, et elles ne sont certainement pas toutes limitées par la connaissance de Python, ni même par la programmation en général.
C’est vrai, mais en tant que data scientist, il est probable que vous aurez besoin de programmer à un moment donné – et en programmation, il est très probable que le langage que vous utiliserez soit Python. Lorsque les ingénieurs de données de votre équipe viennent de vous confier un pipeline de nettoyage et d’analyse des données, il est utile de savoir comment le transformer rapidement et efficacement en un ensemble d’informations visuelles exploitables et présentables.
Python est important à connaître pour la visualisation de données de manière générale, pour plusieurs raisons :
- C’est une langue accessible. Si vous venez tout juste de passer au travail de science des données et de visualisation, il sera beaucoup plus facile de programmer des visualisations en Python que de travailler avec des outils de niveau inférieur tels que D3 en Javascript.
- Il existe de nombreuses bibliothèques différentes et populaires en Python, qui offrent toutes la possibilité de visualiser des données avec du code qui s’appuie directement sur les bases de Python que nous avons apprises ci-dessus. Les exemples incluent Matplotlib, Né de la mer, Terrainet Véga-Altaïr (anciennement connu sous le nom d’Altaïr). J’en explorerai certains, notamment Altair, dans de prochains articles.
- De plus, les bibliothèques s’intègrent avant tout de manière transparente dans pandas, la bibliothèque fondamentale de science des données en Python. Les données des pandas peuvent être directement incorporées dans la logique du code de ces bibliothèques pour créer des visualisations ; souvent, vous n’aurez même pas besoin de l’exporter ou de le transformer avant de pouvoir commencer à visualiser.
- Les principes de base abordés dans cet article peuvent sembler élémentaires, mais ils contribuent grandement à permettre la visualisation des données :
- Calculer correctement les expressions et comprendre celles écrites par d’autres est essentiel pour garantir que vous visualisez une représentation précise des données.
- Vous aurez souvent besoin de stocker des valeurs ou des ensembles de valeurs spécifiques pour les incorporer ultérieurement dans une visualisation ; vous aurez besoin de variables pour cela.
- Parfois, vous pouvez même stocker entier visualisations dans une variable pour une utilisation ou un affichage ultérieur.
- Les bibliothèques les plus avancées, telles que Plotly et Altair, vous permettent d’appeler des fonctions intégrées (et parfois même définies par l’utilisateur) pour personnaliser les visualisations.
- Une connaissance de base de Python vous permettra d’intégrer vos visualisations dans des applications simples pouvant être partagées avec d’autres, à l’aide d’outils tels que Dash complot et Rationalisé. Ces outils visent à simplifier le processus de création d’applications pour les data scientists qui débutent en programmation, et les concepts fondamentaux abordés dans cet article seront suffisants pour vous aider à commencer à les utiliser.
Si cela ne suffit pas à vous convaincre, je vous invite à cliquer sur l’un des liens ci-dessus et à commencer à explorer vous-même certains de ces outils de visualisation. Une fois que vous aurez commencé à voir ce que vous pouvez en faire, vous ne reviendrez plus.
Pour ma part, je reviendrai dans le prochain article pour présenter mon propre tutoriel de construction de visualisations. (Un ou plusieurs de ces outils peuvent faire leur apparition.) D’ici là !



