Una correlazione spuria si verifica quando due variabili sono statisticamente correlate ma non direttamente correlate causalmente. Queste due variabili sembrano erroneamente correlate l’una all’altra, normalmente a causa di un terzo fattore invisibile.
Ad esempio, negli ultimi 30 anni il prezzo dei biglietti del cinema è aumentato e il numero è aumentato anche il numero di persone che frequentano il cinema. Tuttavia, sarebbe un errore concludere che se i cinema aumentassero i loro prezzi, aumenterebbe anche la frequenza. Allo stesso modo, sarebbe sbagliato presumere che l’aumento dei prezzi sia stato causato direttamente dall’aumento dei tassi di partecipazione.
Esempio di correlazione spuria
Ogni punto nel grafico sottostante mostra il numero di morti di conducenti in collisioni ferroviarie per anno (posizione orizzontale) e importazioni annuali di petrolio greggio norvegese da parte degli Stati Uniti. C’è una forte correlazione evidente nei dati con una statistica di correlazione di 0,95. Eppure questa è una correlazione spuria perché non c’è motivo di credere che le morti ferroviarie causino importazioni di petrolio, o viceversa.
Cause di correlazioni spurie
Una delle cause di correlazioni spurie è la coincidenza. Se guardi abbastanza bene non mancano le coincidenze in natura. L’esempio specifico mostrato sopra proviene da un sito web dedicato alla ricerca e alla condivisione di spurie umoristiche correlazioni.
Un tipo più problematico di correlazione spuria è quella in cui esiste una relazione causale ma non diretta tra le due variabili. Nell’esempio precedente di presenze e prezzi al cinema, i prezzi aumentano a causa dell’inflazione mentre la presenza aumenta a causa della crescita della popolazione e dei livelli più elevati di reddito disponibile, che si verificano entrambi nel tempo. Pertanto, una terza variabile, il tempo, “fa apparire” la correlazione.
Diagnosi di correlazione spuria
Di solito è difficile diagnosticare una correlazione spuria, poiché la teoria di una persona è ano teoria del complotto o coincidenza di quella persona. L’esempio recente più famoso di questo è stato il dibattito sul fatto che il riscaldamento globale sia una conseguenza delle azioni umane o meno. Nel 20 ° secolo, si è verificato un dibattito simile sul fatto che l’uso del tabacco abbia causato il cancro ai polmoni.
Lo strumento principale per diagnosticare se una correlazione è falsa o meno è esaminare la qualità della teoria dietro di essa. Nel caso del tabacco e del cancro ai polmoni, solo una chiara spiegazione del meccanismo biologico che ha portato il fumo a portare al cancro del polmone ha risolto il dibattito.
Un approccio più basato sui dati per diagnosticare la correlazione spuria consiste nell’utilizzare dati statistici tecniche per esaminare i residui. Se i residui mostrano autocorrelazione, ciò suggerisce che alcune variabili chiave potrebbero mancare dall’analisi.
Vuoi saperne di più? Dai un’occhiata alle nostre pratiche guide Che cos’è …!