Fałszywa korelacja występuje, gdy dwie zmienne są powiązane statystycznie, ale nie są bezpośrednio powiązane przyczynowo. Te dwie zmienne wydają się fałszywie powiązane ze sobą, zwykle z powodu niewidocznego trzeciego czynnika.
Na przykład w ciągu ostatnich 30 lat ceny biletów do kina wzrosły, a liczba wzrosła również liczba osób uczęszczających do kina. Błędem byłoby jednak wnioskować, że jeśli kina podniosą ceny, wzrośnie również frekwencja. Podobnie, błędem byłoby zakładać, że wzrost cen był bezpośrednio spowodowany wzrostem frekwencji.
Przykład fałszywej korelacji
Każda kropka na poniższym wykresie przedstawia liczbę liczby śmiertelnych kierowców w wypadkach kolejowych w poszczególnych latach (pozycja horyzontalna) oraz roczny import norweskiej ropy naftowej do USA. Istnieje silna korelacja widoczna w danych ze statystyką korelacji wynoszącą 0,95. Jednak jest to fałszywa korelacja, ponieważ nie ma powodu, aby sądzić, że śmiertelne wypadki kolejowe powodują import ropy naftowej i odwrotnie.
Przyczyny fałszywej korelacji
Jedną z przyczyn fałszywych korelacji jest zbieg okoliczności. Jeśli przyjrzysz się wystarczająco uważnie, w naturze nie brakuje zbiegów okoliczności. Konkretny przykład pokazany powyżej pochodzi ze strony internetowej poświęconej znajdowaniu i udostępnianiu humorystycznych fałszywych korelacje.
Bardziej problematyczny typ fałszywej korelacji to taki, w którym istnieje związek przyczynowy, ale nie bezpośredni między dwiema zmiennymi. We wcześniejszym przykładzie widzów i cen w kinach ceny rosną z powodu inflacji, podczas gdy frekwencja wzrasta ze względu na wzrost liczby ludności i wyższy poziom dochodu do dyspozycji – oba występujące w czasie. Zatem trzecia zmienna, czas, „powoduje” pojawienie się korelacji.
Diagnozowanie fałszywej korelacji
Zwykle trudno jest zdiagnozować fałszywą korelację, ponieważ teoria jednej osoby to ano teoria spiskowa lub zbieg okoliczności. Najbardziej znanym ostatnio tego przykładem była debata na temat tego, czy globalne ocieplenie jest konsekwencją działań człowieka, czy też nie. W XX wieku toczyła się podobna debata na temat tego, czy palenie tytoniu powoduje raka płuc.
Głównym narzędziem do diagnozy, czy korelacja jest fałszywa, czy nie, jest zbadanie jakości stojącej za nią teorii. W przypadku tytoniu i raka płuc jedynie jasne wyjaśnienie mechanizmu biologicznego, który powodował, że palenie prowadziło do raka płuc, rozstrzygnęło debatę.
Bardziej oparte na danych podejście do diagnozowania fałszywej korelacji polega na wykorzystaniu statystyki techniki badania pozostałości. Jeśli reszty wykazują autokorelację, sugeruje to, że w analizie może brakować niektórych kluczowych zmiennych.
Chcesz dowiedzieć się więcej? Sprawdź nasze przydatne poradniki Co to jest …!