En falsk korrelation uppstår när två variabler är statistiskt relaterade men inte direkt kausalt relaterade. Dessa två variabler verkar falskt relaterade till varandra, normalt på grund av en osynlig tredje faktor.
Till exempel har priset på biobiljetter ökat och antalet under de senaste 30 åren. människor som går på bio har också stigit. Det skulle dock vara ett misstag att dra slutsatsen att när biograferna höjer sina priser kommer närvaron också att öka. Likaså skulle det vara fel att anta att prisökningen direkt orsakades av ökningen av närvaron.
Exempel på falsk korrelation
Varje punkt i diagrammet nedan visar antalet av förardödsfall i järnvägskollisioner per år (den horisontella positionen) och USA: s årliga import av norsk råolja. Det finns en stark korrelation tydlig i data med en korrelationsstatistik på 0,95. Ändå är detta en falsk korrelation eftersom det inte finns någon anledning att tro att järnvägsdöd orsakar oljeimport, eller vice versa.
Orsaker till falsk korrelation
En orsak till falska korrelationer är tillfällighet. Om du ser tillräckligt hårt finns det ingen brist på tillfälligheter i naturen. Det specifika exemplet som visas ovan är från en webbplats avsedd att hitta och dela humoristisk falsk korrelationer.
En mer problematisk typ av falsk korrelation är en där det finns ett kausalt men inte direkt samband mellan de två variablerna. I det tidigare exemplet på biodeltagande och priser går priserna upp på grund av inflation medan närvaron ökar på grund av befolkningstillväxt och högre disponibla inkomster – båda inträffar över tiden. En tredje variabel, tid, ”får” därför korrelationen att visas.
Diagnos av falsk korrelation
Det är vanligtvis svårt att diagnostisera falsk korrelation, eftersom en persons teori är ano personens konspirationsteori eller tillfällighet. Det senaste berömda exemplet på detta var debatten om huruvida global uppvärmning är en följd av mänskliga handlingar eller inte. Under 1900-talet uppstod en liknande debatt om huruvida tobaksbruk orsakade lungcancer.
Det viktigaste verktyget för att diagnostisera om en korrelation är falsk eller inte är att undersöka kvaliteten på teorin bakom den. När det gäller tobak och lungcancer avgjorde debatten bara en tydlig förklaring till den biologiska mekanism som orsakade att rökning ledde till lungcancer.
En mer datadriven metod för att diagnostisera falsk korrelation är att använda statistisk tekniker för att undersöka resterna. Om resterna uppvisar autokorrelation antyder detta att någon nyckelvariabel kan saknas i analysen.
Vill du veta mer? Kolla in våra praktiska Vad är … guider!