Une corrélation erronée se produit lorsque deux variables sont statistiquement liées mais pas directement causalement. Ces deux variables semblent faussement liées l’une à l’autre, normalement en raison d’un troisième facteur invisible.
Par exemple, au cours des 30 dernières années, le prix des billets de cinéma a augmenté et le nombre des personnes qui fréquentent le cinéma a également augmenté. Cependant, ce serait une erreur de conclure que si les cinémas augmentent leurs prix, la fréquentation augmentera également. De même, il serait faux de supposer que la hausse des prix a été directement causée par l’augmentation des taux de fréquentation.
Exemple de corrélation fallacieuse
Chaque point du graphique ci-dessous montre le nombre des décès de conducteurs dans des collisions ferroviaires par année (position horizontale) et les importations annuelles de pétrole brut norvégien par les États-Unis. Il existe une forte corrélation évidente dans les données avec une statistique de corrélation de 0,95. Pourtant, il s’agit d’une corrélation fallacieuse car il n’y a aucune raison de croire que les décès sur les chemins de fer provoquent des importations de pétrole, ou vice versa.
Causes des fausses corrélations
Une des causes de fausses corrélations est la coïncidence. Si vous regardez assez attentivement, les coïncidences ne manquent pas dans la nature. L’exemple spécifique ci-dessus provient d’un site Web dédié à la recherche et au partage de faux humoristiques corrélations.
Un type de corrélation fallacieuse plus problématique est celui où il existe une relation causale mais pas directe entre les deux variables. Dans l’exemple précédent de fréquentation et de prix des salles de cinéma, les prix augmentent en raison de l’inflation tandis que la fréquentation augmente en raison de la croissance démographique et des niveaux plus élevés de revenu disponible – les deux se produisant au fil du temps. Ainsi, une troisième variable, le temps, « fait » apparaître la corrélation.
Diagnostiquer une corrélation erronée
Il est généralement difficile de diagnostiquer une corrélation fausse, car la théorie d’une personne est ano théorie du complot ou coïncidence de l’autre personne. L’exemple récent le plus célèbre de ceci est le débat sur la question de savoir si le réchauffement climatique est une conséquence des actions humaines ou non. Au 20e siècle, un débat similaire a eu lieu sur la question de savoir si le tabagisme causait le cancer du poumon.
Le principal outil pour diagnostiquer si une corrélation est fausse ou non est d’examiner la qualité de la théorie qui la sous-tend. Dans le cas du tabac et du cancer du poumon, seule une explication claire du mécanisme biologique qui a conduit le tabagisme à conduire au cancer du poumon a réglé le débat.
Une approche plus axée sur les données pour diagnostiquer une corrélation fallacieuse consiste à utiliser des statistiques techniques pour examiner les résidus. Si les résidus présentent une autocorrélation, cela suggère qu’une variable clé peut être absente de l’analyse.
Vous voulez en savoir plus? Consultez nos guides pratiques Qu’est-ce que …!