Le coefficient de corrélation de Pearson, expliqué simplement

construisons un modèle de régression, ce qui signifie ajuster une ligne droite sur les données pour prédire les valeurs futures, nous visualisons d’abord nos données pour avoir une idée de leur apparence et pour voir les modèles et les relations.

Les données peuvent sembler montrer une relation linéaire positive, mais nous la confirmons en calculant le coefficient de corrélation de Pearson, qui nous indique à quel point nos données sont proches de la linéarité.

Considérons un simple Ensemble de données sur les salaires pour comprendre le coefficient de corrélation de Pearson.

L’ensemble de données se compose de deux colonnes :

AnnéesExpérience: le nombre d’années pendant lesquelles une personne travaille

Salaire (cible) : le salaire annuel correspondant en dollars américains

Nous devons maintenant construire un modèle qui prédit le salaire en fonction des années d’expérience.

Nous pouvons comprendre que cela peut être fait avec un simple modèle de régression linéaire car nous n’avons qu’un seul prédicteur et une variable cible continue.

Mais pouvons-nous appliquer directement l’algorithme de régression linéaire simple comme ça ?

Non.

Nous avons plusieurs hypothèses à appliquer pour la régression linéaire, et l’une d’entre elles est linéarité.

Nous devons vérifier la linéarité, et pour cela, nous calculons le coefficient de corrélation.

Mais qu’est-ce que la linéarité ?

Comprenons cela avec un exemple.

D’après le tableau ci-dessus, nous pouvons voir que pour chaque année d’augmentation d’expérience, il y a une augmentation de salaire de 5 000 $.

Le changement est constant et lorsque nous traçons ces valeurs, nous obtenons une ligne droite.

Ce type de relation est appelé relation linéaire.

Dans la régression linéaire simple, nous savons déjà que nous ajustons une droite de régression aux données pour prédire les valeurs futures, et cela ne peut être efficace que lorsque les données ont une relation linéaire.

Nous devons donc vérifier la linéarité de nos données.

Pour cela, calculons le coefficient de corrélation.

Avant cela, nous visualisons d’abord les données à l’aide d’un nuage de points pour avoir une idée de la relation entre les deux variables.

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Load the dataset
df = pd.read_csv("C:/Salary_dataset.csv")

# Set plot style
sns.set(style="whitegrid")

# Create scatter plot
plt.figure(figsize=(8, 5))
sns.scatterplot(x='YearsExperience', y='Salary', data=df, color='blue', s=60)

plt.title("Scatter Plot: Years of Experience vs Salary")
plt.xlabel("Years of Experience")
plt.ylabel("Salary (USD)")
plt.tight_layout()
plt.show()

Nous pouvons observer à partir du nuage de points que, comme années d’expérience augmente, salaire tend également à augmenter.

Bien que les points ne forment pas une ligne droite parfaite, la relation semble être fort et linéaire.

Pour le confirmer, calculons maintenant le Coefficient de corrélation de Pearson.

import pandas as pd

# Load the dataset
df = pd.read_csv("C:/Salary_dataset.csv")

# Calculate Pearson correlation
pearson_corr = df['YearsExperience'].corr(df['Salary'], method='pearson')

print(f"Pearson correlation coefficient: {pearson_corr:.4f}")

Le coefficient de corrélation de Pearson est de 0,9782.

Nous obtenons la valeur du coefficient de corrélation comprise entre -1 et +1.

Si c’est…
proche de 1 : relation linéaire positive forte
proche de 0 : pas de relation linéaire
proche de -1 : forte relation linéaire négative

Ici, nous avons obtenu une valeur de coefficient de corrélation de 0,9782ce qui signifie que les données suivent principalement un motif en ligne droiteet il y a un relation positive très forte entre les variables.

De là, nous pouvons observer que la régression linéaire simple convient bien pour modéliser cette relation.

Mais comment calculer ce coefficient de corrélation de Pearson ?

Considérons un exemple de données en 10 points de notre ensemble de données.

Calculons maintenant le coefficient de corrélation de Pearson.

Lorsque X et Y augmentent ensemble, la corrélation est dite positif. En revanche, si l’un augmente tandis que l’autre diminue, la corrélation est négatif.

Tout d’abord, calculons la variance pour chaque variable.

La variance nous aide à comprendre dans quelle mesure les valeurs s’écartent de la moyenne.

Nous allons commencer par calculer la variance pour X (années d’expérience).
Pour ce faire, nous devons d’abord calculer le moyenne de X.

\[
\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i
\]

\[
= \frac{1.2 + 3.3 + 3.8 + 4.1 + 5.0 + 5.4 + 8.3 + 8.8 + 9.7 + 10.4}{10}
\]
\[
= \frac{70.0}{10}
\]
\[
= 7.0
\]

Ensuite, nous soustrayons chaque valeur de la moyenne, puis la mettons au carré pour annuler les valeurs négatives.

Nous avons calculé les écarts carrés de chaque valeur par rapport à la moyenne.
Maintenant, nous pouvons trouver la variance de X en faisant la moyenne de ces carrés des écarts.

\[
\text{Sample Variance of } X = \frac{1}{n – 1} \sum_{i=1}^{n} (X_i – \bar{X})^2
\]

\[
= \frac{33.64 + 13.69 + 10.24 + 8.41 + 4.00 + 2.56 + 1.69 + 3.24 + 7.29 + 11.56}{10 – 1}
\]
\[
= \frac{96.32}{9} \approx 10.70
\]

Ici, nous avons divisé par « n-1 » car nous avons affaire à un échantillon de données et l’utilisation de « n-1 » nous donne l’estimation non biaisée de la variance.

La variance d’échantillon de X est 10h70ce qui nous indique que les valeurs des années d’expérience sont, en moyenne, 10,70 unités carrées loin de la moyenne.

Puisque la variance est une valeur carrée, nous prenons la racine carrée pour l’interpréter dans la même unité que les données d’origine.

Ceci s’appelle Écart type.

\[
s_X = \sqrt{\text{Sample Variance}} = \sqrt{10.70} \approx 3.27
\]

L’écart type de X est 3.27ce qui signifie que les valeurs des années d’expérience se situent à environ 3,27 ans au dessus ou en dessous de la moyenne.

De la même manière, nous calculons la variance et l’écart type de « Y ».

\[
\bar{Y} = \frac{1}{n} \sum_{i=1}^{n} Y_i
\]

\[
= \frac{39344 + 64446 + 57190 + 56958 + 67939 + 83089 + 113813 + 109432 + 112636 + 122392}{10}
\]
\[
= \frac{827239}{10}
\]
\[
= 82,\!723.90
\]
\[
\text{Sample Variance of } Y = \frac{1}{n – 1} \sum (Y_i – \bar{Y})^2
\]
\[
= \frac{7,\!898,\!632,\!198.90}{9} = 877,\!625,\!799.88
\]
\[
\text{Standard Deviation of } Y \text{ is } s_Y = \sqrt{877,\!625,\!799.88} \approx 29,\!624.75
\]

Nous avons calculé la variance et l’écart type de « X » et « Y ».

Maintenant, l’étape suivante consiste à calculer la covariance entre X et Y.

Nous disposons déjà des moyennes de X et Y, ainsi que des écarts de chaque valeur par rapport à leurs moyennes respectives.

Maintenant, nous multiplions ces écarts pour voir comment les deux variables varient ensemble.

En multipliant ces écarts, nous essayons de comprendre comment X et Y évoluent ensemble.

Si X et Y sont tous deux au-dessus de leur moyenne, alors les écarts sont positifs, ce qui signifie que le produit est positif.

Si X et Y sont tous deux inférieurs à leur moyenne, alors les écarts sont négatifs, mais comme un négatif multiplié par un négatif est positif, le produit est positif.

Si l’un est au dessus de la moyenne et l’autre en dessous, le produit est négatif.

Ce produit nous indique si les deux variables ont tendance à évoluer dans le même sens. même direction (les deux augmentant ou les deux diminuant) ou en directions opposées.

En utilisant la somme du produit des écarts, nous calculons maintenant la covariance de l’échantillon.

\[
\text{Sample Covariance} = \frac{1}{n – 1} \sum_{i=1}^{n}(X_i – \bar{X})(Y_i – \bar{Y})
\]

\[
= \frac{808771.5}{10 – 1}
\]
\[
= \frac{808771.5}{9} = 89,\!863.5
\]

Nous avons obtenu un échantillon de covariance de 89863,5. Cela indique qu’à mesure que l’expérience augmente, le salaire a également tendance à augmenter.

Mais l’ampleur de la covariance dépend des unités des variables (années × dollars), elle n’est donc pas directement interprétable.

Cette valeur indique uniquement la direction.

Nous divisons maintenant la covariance par le produit des écarts types de X et Y.

Cela nous donne le coefficient de corrélation de Pearson qui peut être appelé une version normalisée de la covariance.

Puisque l’écart type de X a des unités en années et Y a des unités en dollars, les multiplier nous donne des années multipliées par des dollars.

Ces unités s’annulent lorsque nous divisons, ce qui donne le coefficient de corrélation de Pearson, qui est sans unité.

Mais la principale raison pour laquelle nous divisons la covariance par les écarts types est de la normaliser, afin que le résultat soit plus facile à interpréter et puisse être comparé entre différents ensembles de données.

\[
r = \frac{\text{Cov}(X, Y)}{s_X \cdot s_Y}
= \frac{89,\!863.5}{3.27 \times 29,\!624.75}
= \frac{89,\!863.5}{96,\!992.13} \approx 0.9265
\]

Ainsi, le coefficient de corrélation de Pearson (r) que nous avons calculé est 0,9265.

Cela nous indique qu’il y a un relation linéaire positive très forte entre années d’expérience et salaire.

De cette façon, nous trouvons le coefficient de corrélation de Pearson.

La formule du coefficient de corrélation de Pearson est la suivante :

\[
r = \frac{\text{Cov}(X, Y)}{s_X \cdot s_Y}
= \frac{\frac{1}{n – 1} \sum_{i=1}^{n} (X_i – \bar{X})(Y_i – \bar{Y})}
{\sqrt{\frac{1}{n – 1} \sum_{i=1}^{n} (X_i – \bar{X})^2} \cdot \sqrt{\frac{1}{n – 1} \sum_{i=1}^{n} (Y_i – \bar{Y})^2}}
\]

\[
= \frac{\sum_{i=1}^{n} (X_i – \bar{X})(Y_i – \bar{Y})}
{\sqrt{\sum_{i=1}^{n} (X_i – \bar{X})^2} \cdot \sqrt{\sum_{i=1}^{n} (Y_i – \bar{Y})^2}}
\]

Nous devons nous assurer que certaines conditions sont remplies avant de calculer le coefficient de corrélation de Pearson :

La relation entre les variables doit être linéaire.
Les deux variables doivent être continu et numérique.
Il devrait y avoir pas de valeurs aberrantes fortes.
Les données doivent être normalement distribué.

Ensemble de données

L’ensemble de données utilisé dans ce blog est le Ensemble de données salariales.

Il est accessible au public sur Kaggle et est sous licence Creative Commons Zéro (domaine public CC0) licence. Cela signifie qu’il peut être librement utilisé, modifié et partagé à la fois à des fins non commerciales et commerciales sans restriction.

J’espère que cela vous a permis de comprendre clairement comment le coefficient de corrélation de Pearson est calculé et quand il est utilisé.

Merci d’avoir lu!

Blog

Le coefficient de corrélation de Pearson, expliqué simplement

Graphique RAG vs SQL RAG

Créer un RAG multimodal qui répond avec du texte, des images et des tableaux à partir de sources

Leave A Reply Annuler la réponse

Subscribe our Newsletter

Company

Links

Blog

Graphique RAG vs SQL RAG

Créer un RAG multimodal qui répond avec du texte, des images et des tableaux à partir de sources

You may also like

Ensembles d’ensembles d’ensembles : un guide de l’empilement

4 fichiers YAML au lieu de PySpark : comment nous laissons les analystes créer des pipelines de données sans ingénieurs

Corrélation ne signifie pas causalité ! Mais qu’est-ce que cela signifie ?

Leave A Reply Annuler la réponse

Subscribe our Newsletter

Company

Links​

Login with your site account

Register a new account

Links