Uma correlação espúria ocorre quando duas variáveis estão estatisticamente relacionadas, mas não diretamente causalmente relacionadas. Essas duas variáveis parecem estar falsamente relacionadas entre si, normalmente devido a um terceiro fator invisível.
Por exemplo, nos últimos 30 anos, o preço dos ingressos para o cinema aumentou e o número de pessoas que vão ao cinema também aumentou. No entanto, seria um erro concluir que, se os cinemas aumentarem seus preços, a freqüência também aumentará. Da mesma forma, seria errado supor que o aumento dos preços foi causado diretamente pelo aumento nas taxas de frequência.
Exemplo de correlação espúria
Cada ponto no gráfico abaixo mostra o número de mortes de motoristas em colisões ferroviárias por ano (a posição horizontal), e as importações anuais de petróleo bruto norueguês pelos EUA. Há uma forte correlação evidente nos dados com uma estatística de correlação de 0,95. No entanto, esta é uma correlação espúria porque não há razão para acreditar que as mortes em ferrovias causem importações de petróleo, ou vice-versa.
Causas da correlação espúria
Uma das causas das correlações espúrias é a coincidência. Se você olhar bem, não faltam coincidências na natureza. O exemplo específico mostrado acima é de um site dedicado a encontrar e compartilhar espúrias humorísticas correlações.
Um tipo mais problemático de correlação espúria é aquele em que há uma relação causal, mas não direta, entre as duas variáveis. No exemplo anterior de assiduidade e preços de cinema, os preços aumentam devido à inflação enquanto a frequência aumenta devido ao crescimento populacional e níveis mais altos de renda disponível – ambos ocorrendo ao longo do tempo. Assim, uma terceira variável, o tempo, “faz” com que a correlação apareça.
Diagnosticando correlação espúria
Geralmente é difícil diagnosticar correlação espúria, uma vez que a teoria de uma pessoa é teoria da conspiração ou coincidência da outra pessoa. O exemplo recente mais famoso disso foi o debate sobre se o aquecimento global é uma consequência das ações humanas ou não. No século 20, um debate semelhante ocorreu sobre se o uso do tabaco causava câncer de pulmão.
A principal ferramenta para diagnosticar se uma correlação é espúria ou não é examinar a qualidade da teoria por trás dela. No caso do tabaco e câncer de pulmão, apenas uma explicação clara para o mecanismo biológico que fazia com que o fumo levasse ao câncer de pulmão resolveu o debate.
Uma abordagem mais baseada em dados para diagnosticar correlação espúria é usar estatísticas técnicas para examinar os resíduos. Se os resíduos exibirem autocorrelação, isso sugere que alguma variável chave pode estar faltando na análise.
Quer saber mais? Confira nossos guias úteis O que é …!