
Corrélation ne signifie pas causalité ! Mais qu’est-ce que cela signifie ?
Je suis entré dans la science des données, il y avait une phrase que nous avions tous entendue ; tout le monde le sait, petits et grands :
« La corrélation n’implique pas la causalité. »
C’est une phrase accrocheuse, et vous l’avez certainement dite une ou deux fois, et vous auriez peut-être même hoché la tête avec confiance lorsque quelqu’un d’autre l’a dit. Surtout pour les ensembles de données qui ne sont pas liés les uns aux autres, mais où il est amusant et intrigant d’impliquer un lien de causalité !
Voici deux faits très intéressants :
- Pays qui mangent plus la pizza a tendance à avoir plus haut résultats en mathématiques.
- Plus il y a de lunettes de soleil vendues, plus plus des attaques de requins se produisent.
Maintenant, si c’étaient toutes les informations dont vous disposez… que devriez-vous conclure ?
Est-ce que manger de la pizza vous rend meilleur en mathématiques ? L’achat d’une nouvelle paire de lunettes de soleil provoquera-t-il une attaque de requin ?
Même si c’est amusant d’y penser, la réponse à ces questions est « probablement pas ».
Et pourtant, voici des exemples de quelque chose de très réel : Corrélation.
La question qui mérite d’être posée maintenant est la suivante : si la corrélation n’est pas égale à la causalité, qu’est-ce que cela signifie ?
C’est là que les choses deviennent floues.
Parce que nous avons tendance à traiter la corrélation comme une idée vague, nous y pensons comme si elle signifiait «Ils sont en quelque sorte liés» ou « Ils se déplacent ensemble d’une manière ou d’une autre ». Mais la corrélation n’est pas seulement un sentiment ; c’est une mesure mathématique précise de la façon dont deux variables se déplacent ensemble.
Au lieu de simplement répéter l’avertissement, comprenons réellement le concept. Une fois que vous le faites, ces exemples étranges cessent d’être surprenants et commencent à avoir un sens.
Alors, allons-y !
Qu’est-ce que la corrélation ?
Quand les gens disent que deux choses sont « corrélé« , ils signifient généralement l’une des trois choses suivantes :
- « Ces deux choses semblent liées. »
- « Ces deux choses vont de pair. »
- « Il y a un lien entre ces deux choses. »
En surface, ces trois éléments n’ont pas tort, mais il leur manque quelques nuances.
La corrélation n’est pas une ambiance. C’est une mesure ! Et comme toute mesure, elle répond à une question bien précise.
En prenant du recul, imaginez que vous collectez des données sur le nombre d’heures d’études des étudiants et leurs résultats aux examens.
Vous le tracez et vous voyez quelque chose comme ceci :

Chaque point représente un élève. L’axe des x représente la durée de leurs études et l’axe des y représente leur score.
Lorsque vous regardez ce graphique, vous remarquez que les points ont tendance à monter. Vous concluez donc : « À mesure que le temps d’étude augmente, les scores ont tendance à augmenter également », ce que nous appelons une corrélation positive.
Mais s’agit-il simplement d’une tendance ou les données vous disent-elles quelque chose de plus ?
Dans cet exemple, la relation que vous venez de tracer est la suivante : lorsqu’une variable est au-dessus de sa moyenne, l’autre a tendance à être également au-dessus de sa moyenne.
C’est l’idée clé qui échappe à la plupart des gens : la corrélation ne concerne pas les valeurs brutes, mais la façon dont les variables évoluent par rapport à leurs moyennes.
Ainsi, les réponses à la question de corrélation sont :
Deux variables évoluent-elles ensemble de manière cohérente ?
Cette question a l’une des trois réponses suivantes :
- Haut + haut → corrélation positive
- Haut + bas → corrélation négative
- Pas de modèle cohérent → pas de corrélation
Les mathématiques derrière la corrélation
Essayons de rendre la réflexion sur la corrélation plus intuitive. Nous le ferons en utilisant le Coefficient de corrélation de Pearsonque nous pouvons définir comme :
D’accord, je sais que personne ne pense à cette équation lorsque je dis « intuitive »… Mais restez avec moi et déballons-la sans en faire un cours magistral.
Étape 1 : Covariance (AKA bougent-ils ensemble ?)
La covariance examine la façon dont deux variables évoluent par rapport à leurs moyennes. Par exemple, si les deux variables sont au-dessus de leurs moyennes, nous obtenons une covariance positive ; si l’un est au dessus et l’autre en dessous, on obtient une covariance négative.
Fondamentalement, les réponses de covariance : « Ces variables sont-elles alignées dans la manière dont elles s’écartent de leurs moyennes ?
Étape 2 : normalisez-le
La covariance seule est difficile à interpréter car elle dépend de l’échelle. Pour surmonter cela, nous divisons par les écarts types : et . Cela redimensionne tout dans une plage propre : -1 à 1. Cela nous donne un terrain d’entente pour comparer les valeurs des variables.
Après ces deux étapes, nous pouvons désormais calculer le coefficient de Pearson ! Si on obtient :
- +1 → relation positive parfaite.
- 0 → pas de relation linéaire.
- -1 → relation négative parfaite.
Ce code mesure simplement la cohérence avec laquelle ces deux variables évoluent ensemble : non pas leur taille, mais leur adéquation.
À quoi ressemblent les différentes corrélations

- Gauche : forte corrélation positive → tendance clairement ascendante
- Milieu : pas de corrélation → diffusion aléatoire
- À droite : forte corrélation négative → tendance à la baisse
La corrélation mesure la cohérence du mouvement, et pas seulement si deux variables sont liées.
Ce que la corrélation vous dit réellement
La corrélation vous dit : ces variables évoluent ensemble de manière structurée. Cela nous indique qu’il existe ici un modèle auquel il faut prêter attention.
Mais cela ne vous dit PAS pourquoi ni comment ils agissent, ni si l’un est la cause de l’autre.
L’exemple classique de corrélation est la corrélation entre les ventes de glaces et les noyades.
En fait, nous pouvons tracer le nombre de ventes de glaces et d’incidents de noyade pour obtenir :

Nous pouvons observer une nette relation ascendante entre ces deux variables… plus de ventes de glaces entraînent plus de noyades ?…
Mais c’est trompeur. Parce que le véritable moteur est la température : le temps chaud signifie plus de ventes de glaces, plus de gens allant à la plage et plus de baignades.
Ainsi, même si nous pouvons clairement voir que la corrélation est réelle, l’explication est cachée.
Corrélation et non-linéarité
Considérons maintenant cette relation :
y = x²

Il s’agit clairement d’une relation forte, car à mesure que x augmente ou diminue, y augmente ! Mais si vous calculez la corrélation :
np.corrcoef(x, y)[0,1]
Vous obtiendrez quelque chose proche de 0.
En effet, la corrélation mesure uniquement : dans quelle mesure une ligne droite correspond à la relation. Il s’agit d’une limitation cruciale. Si la relation est courbe, la corrélation peut échouer, même s’il existe une relation forte.
Ainsi, au lieu de penser : « Corrélation = relation », il vaut mieux penser : « Corrélation = dans quelle mesure une ligne droite explique la relation ».
Le malentendu
Le flou du concept de corrélation et la manière dont il nous est enseigné conduisent à certains malentendus. Trois d’entre eux sont très courants :
- En supposant un lien de causalité : Ce n’est pas parce que deux variables évoluent ensemble que l’une provoque l’autre.
- Ignorer les variables cachées : Il se peut qu’un troisième facteur soit à l’origine des deux.
- Relations non linéaires manquantes : La corrélation ne voit que des modèles en ligne droite.
Vous vous demandez maintenant, si la corrélation est un terme très simple qui ne nous dit pas grand-chose, pourquoi est-il encore important ?
Parce que c’est incroyablement utile comme premier signal. Il vous dit :
« Il se passe peut-être quelque chose d’intéressant ici. »
À partir de là, vous approfondissez votre enquête. La corrélation mesure l’alignement ; une enquête plus approfondie fournit une explication.
Conclusion finale
« La corrélation n’implique pas la causalité. » C’est vrai. Mais voici le problème : les gens entendent cela et pensent : « La corrélation n’a aucun sens. » Ce n’est pas vrai !
La corrélation mesure la façon dont les variables évoluent ensemble ; il va de -1 à 1, capture les relations linéaires, mais cela n’implique PAS de causalité.
La corrélation n’est pas trompeuse. Nous en attendons trop lorsqu’il n’essaie pas d’expliquer le monde. C’est juste un signal indiquant :
« Hé… ça a l’air intéressant. »
Maintenant, le vrai travail commence, alors que nous étudions pourquoi cela est vraiment intéressant.



