Een onechte correlatie treedt op als twee variabelen statistisch gerelateerd zijn, maar niet direct causaal gerelateerd. Deze twee variabelen lijken ten onrechte met elkaar verband te houden, normaal gesproken vanwege een onzichtbare derde factor.
De afgelopen 30 jaar is bijvoorbeeld de prijs van bioscoopkaartjes gestegen en het aantal van het aantal mensen dat naar de bioscoop gaat, is ook gestegen. Het zou echter een vergissing zijn om te concluderen dat als bioscopen hun prijzen verhogen, het aantal bezoekers ook zal stijgen. Evenzo zou het verkeerd zijn om aan te nemen dat de prijsstijging rechtstreeks werd veroorzaakt door de stijging van de opkomstpercentages.
Voorbeeld van onechte correlatie
Elke stip op de onderstaande grafiek toont het aantal van het aantal doden bij treinbotsingen per jaar (de horizontale positie), en de jaarlijkse invoer van Noorse ruwe olie door de VS. Er is een sterke correlatie zichtbaar in de gegevens met een correlatiestatistiek van 0,95. Dit is echter een onechte correlatie, omdat er geen reden is om aan te nemen dat sterfgevallen door spoorwegen olie-import veroorzaken, of vice versa.
Oorzaken van onechte correlaties
Een van de oorzaken van onechte correlaties is toeval. Als je goed genoeg kijkt, is er geen tekort aan toevalligheden in de natuur. Het specifieke voorbeeld hierboven is van een website die is gewijd aan het vinden en delen van humoristische onechte correlaties.
Een problematischer type onechte correlatie is er een waarbij er een oorzakelijk maar niet direct verband is tussen de twee variabelen. In het eerdere voorbeeld van bioscoopbezoek en prijzen gaan de prijzen omhoog als gevolg van inflatie terwijl stijgt als gevolg van de bevolkingsgroei en een hoger beschikbaar inkomen – beide treden op in de tijd. Een derde variabele, tijd, ‘zorgt’ ervoor dat de correlatie verschijnt.
Diagnose stellen van valse correlaties
Het is meestal moeilijk om een onechte correlatie vast te stellen, aangezien de theorie van één persoon ano is de samenzweringstheorie of het toeval van de andere persoon. Het bekendste recente voorbeeld hiervan was de discussie over de vraag of de opwarming van de aarde een gevolg is van menselijk handelen of niet. In de 20e eeuw vond een soortgelijk debat plaats over de vraag of tabaksgebruik longkanker veroorzaakte.
Het belangrijkste hulpmiddel bij het diagnosticeren of een correlatie al dan niet onecht is, is door de kwaliteit van de theorie erachter te onderzoeken. In het geval van tabak- en longkanker kon alleen een duidelijke verklaring voor het biologische mechanisme dat ervoor zorgde dat roken tot longkanker leidde, het debat oplossen.
Een meer datagedreven benadering voor het diagnosticeren van onechte correlaties is het gebruik van statistische technieken om de residuen te onderzoeken. Als de residuen autocorrelatie vertonen, suggereert dit dat een sleutelvariabele mogelijk ontbreekt in de analyse.
Wilt u meer weten? Bekijk onze handige Wat is … gidsen!