Avis

Corrélation et causalité en statistique

Corrélation et causalité en statistique

Un jour au déjeuner, une jeune femme mangeait un grand bol de crème glacée et un autre membre du corps enseignant lui a dit: «Vous feriez mieux de faire attention, il existe une forte corrélation statistique entre la crème glacée et la noyade." Elle doit lui ont donné un regard confus, comme il a élaboré un peu plus. "Les jours avec le plus de ventes de crème glacée voient également la plupart des gens se noyer."

Quand elle a eu fini ma glace, les deux collègues ont discuté du fait que le fait qu’une variable soit statistiquement associée à une autre ne signifie pas que l’une est la cause de l’autre. Parfois, une variable se cache en arrière-plan. Dans ce cas, le jour de l'année se cache dans les données. Il y a plus de crème glacée en été que de neige en hiver. Plus de gens nagent en été et se noient plus en été qu'en hiver.

Méfiez-vous des variables cachées

L'anecdote ci-dessus est un excellent exemple de ce que l'on appelle une variable cachée. Comme son nom l'indique, une variable dissimulée peut être difficile à détecter et à identifier. Lorsque nous constatons que deux ensembles de données numériques sont fortement corrélés, nous devrions toujours nous demander: «Quelque chose d'autre est à l'origine de cette relation?

Voici des exemples de forte corrélation causée par une variable cachée:

  • Le nombre moyen d'ordinateurs par personne dans un pays et l'espérance de vie moyenne de ce pays.
  • Le nombre de pompiers à un incendie et les dommages causés par l'incendie.
  • La hauteur d'un élève du primaire et son niveau de lecture.

Dans tous ces cas, la relation entre les variables est très forte. Ceci est généralement indiqué par un coefficient de corrélation dont la valeur est proche de 1 ou de -1. Peu importe à quel point ce coefficient de corrélation est proche de 1 ou de -1, cette statistique ne peut pas montrer qu'une variable est la cause de l'autre.

Détection de variables cachées

De par leur nature, les variables cachées sont difficiles à détecter. L'une des stratégies, le cas échéant, consiste à examiner l'évolution des données dans le temps. Cela peut révéler des tendances saisonnières, telles que l'exemple de la crème glacée, qui sont obscurcies lorsque les données sont regroupées. Une autre méthode consiste à examiner les valeurs éloignées et à essayer de déterminer ce qui les rend différentes des autres données. Parfois, cela donne une idée de ce qui se passe dans les coulisses. La meilleure solution consiste à être proactif. remettez en question les hypothèses et concevez les expériences avec soin.

Pourquoi est-ce important?

Dans le scénario d'ouverture, supposons qu'un membre du Congrès bien intentionné, mais statistiquement non informé, ait proposé d'interdire toutes les glaces pour éviter la noyade. Un tel projet de loi dérangerait de larges couches de la population, obligerait plusieurs entreprises à la faillite et éliminerait des milliers d’emplois avec la fermeture de l’industrie de la crème glacée du pays. Malgré les meilleures intentions du monde, ce projet de loi ne diminuerait pas le nombre de morts par noyade.

Si cet exemple semble un peu trop tiré par les cheveux, considérez ce qui suit, ce qui s'est réellement passé. Au début des années 1900, les médecins ont remarqué que certains nourrissons mourraient mystérieusement dans leur sommeil de problèmes respiratoires présumés. Ceci a été appelé la mort de berceau et est maintenant connu comme SMSN. Une des choses qui ressortait des autopsies pratiquées sur les personnes décédées du SMSN était un thymus élargi, une glande située dans la poitrine. D'après la corrélation de l'hypertrophie du thymus chez les bébés PEID, les médecins ont supposé qu'un thymus anormalement grand provoquait une mauvaise respiration et la mort.

La solution proposée consistait à rétrécir le thymus avec une forte irradiation ou à retirer entièrement la glande. Ces procédures avaient un taux de mortalité élevé et ont entraîné encore plus de décès. Ce qui est triste, c'est que ces opérations n'ont pas dû être effectuées. Des recherches ultérieures ont montré que ces médecins étaient erronés et que le thymus n'était pas responsable du SMSN.

Corrélation ne signifie pas causalité

Ce qui précède devrait nous faire réfléchir lorsque nous pensons que les statistiques s'appuient sur des bases médicales, des lois et des propositions éducatives. Il est important de bien interpréter les données, en particulier si les résultats impliquant une corrélation vont affecter la vie des autres.

Quand quelqu'un dit: «Les études montrent que A est la cause de B et certaines statistiques le corrigent», soyez prêt à répondre, «la corrélation n'implique pas la causalité». Soyez toujours à l'affût de ce qui se cache sous les données.