En falsk korrelation opstår, når to variabler er statistisk relaterede, men ikke direkte kausalt relaterede. Disse to variabler ser fejlagtigt ud til at være relateret til hinanden, normalt på grund af en uset, tredje faktor.
For eksempel er prisen på biografbilletter i løbet af de sidste 30 år steget og antallet af mennesker, der deltager i biografen, er også steget. Det ville imidlertid være en fejl at konkludere, at hvis biograferne hæver deres priser, vil tilstedeværelsen også stige. Ligeledes ville det være forkert at antage, at prisstigningen var direkte forårsaget af stigningen i fremmøde.
Eksempel på falsk korrelation
Hver prik i nedenstående diagram viser antallet af dødsfald fra førere i jernbanekollisioner efter år (den vandrette position) og den årlige import af norsk råolie fra USA. Der er en stærk korrelation tydelig i dataene med en korrelationsstatistik på 0,95. Alligevel er dette en falsk sammenhæng, fordi der ikke er nogen grund til at tro, at jernbanedødsfald forårsager olieimport, eller omvendt.
Årsager til falsk korrelation
En årsag til falske korrelationer er tilfældighed. Hvis du ser hårdt nok ud, mangler der ikke tilfældigheder i naturen. Det specifikke eksempel vist ovenfor er fra et websted dedikeret til at finde og dele humoristisk falsk korrelationer.
En mere problematisk type falsk korrelation er en, hvor der er en kausal, men ikke direkte sammenhæng mellem de to variabler. I det tidligere eksempel på biografdeltagelse og priser stiger priserne på grund af inflation, mens tilstedeværelsen stigninger på grund af befolkningsvækst og højere niveauer af disponibel indkomst – begge opstår over tid. Således “får” en tredje variabel, tid, til at korrelationen vises.
Diagnosticering af falsk korrelation
Det er normalt vanskeligt at diagnosticere falsk korrelation, da en persons teori er ano personens konspirationsteori eller tilfældighed. Det mest berømte nylige eksempel på dette var debatten om, hvorvidt global opvarmning er en konsekvens af menneskelige handlinger eller ej. I det 20. århundrede opstod en lignende debat om, hvorvidt tobaksbrug forårsagede lungekræft.
Hovedværktøjet til diagnosticering af, om en sammenhæng er falsk eller ej, er at undersøge kvaliteten af teorien bag den. I tilfælde af tobak og lungekræft var kun en klar forklaring på den biologiske mekanisme, der fik rygning til at føre til lungekræft, afgjort debatten.
En mere datadrevet tilgang til diagnosticering af falsk korrelation er at bruge statistisk teknikker til at undersøge resterne. Hvis resterne udviser autokorrelation, antyder dette, at der mangler en nøglevariabel i analysen.
Vil du finde ud af mere? Tjek vores praktiske Hvad er … vejledninger!