두 변수가 통계적으로 관련되어 있지만 직접적으로 인과 적으로 관련되지 않은 경우 스퓨리어스 상관이 발생합니다. 이 두 변수는 일반적으로 보이지 않는 세 번째 요인으로 인해 서로 관련이있는 것처럼 보입니다.
예를 들어, 지난 30 년 동안 영화 티켓 가격이 상승하고 그 수가 증가했습니다. 영화관에 참석하는 사람들도 증가했습니다. 하지만 영화관이 가격을 올리면 관람객도 늘어난다는 결론을 내리는 것은 잘못이다. 마찬가지로 참석률 상승이 가격 상승의 직접적인 원인이라고 가정하는 것은 잘못된 것입니다.
스퓨리어스 상관의 예
아래 차트의 각 점은 숫자를 나타냅니다. 철도 충돌로 인한 운전자 사망자 수 (수평 위치), 미국의 노르웨이 원유 수입량. 상관 통계가 0.95 인 데이터에는 강한 상관 관계가 분명합니다. 그러나 철도 사망으로 인해 석유 수입이 발생하거나 그 반대라고 믿을 이유가 없기 때문에 이것은 잘못된 상관 관계입니다.
스퓨리어스 상관의 원인
스퓨리어스 상관의 원인 중 하나는 우연입니다. 자세히 보면 우연의 일치가 부족하지 않습니다. 위에 표시된 구체적인 예는 유머러스 한 스퓨리어스를 찾고 공유하는 전용 웹 사이트에서 가져온 것입니다. 상관 관계.
더 문제가되는 유형의 스퓨리어스 상관 관계는 인과 관계가 있지만 두 변수 사이에 직접적인 관계가없는 경우입니다. 이전의 영화 관람과 가격의 예에서 가격은 출석 중 인플레이션으로 인해 상승합니다. 인구 증가와 높은 가처분 소득 수준으로 인해 증가합니다. 둘 다 시간이 지남에 따라 발생합니다. 따라서 세 번째 변수 인 시간이 상관 관계를 “원인”합니다.
가짜 상관 관계 진단
한 사람의 이론이 ano이기 때문에 일반적으로 가짜 상관 관계를 진단하기가 어렵습니다. 그 사람의 음모 이론 또는 우연. 가장 유명한 최근 사례는 지구 온난화가 인간 행동의 결과인지 아닌지에 대한 논쟁이었습니다. 20 세기에도 담배 사용이 폐암을 유발했는지에 대해 비슷한 논쟁이있었습니다.
상관 관계가 허위인지 아닌지를 진단하는 주요 도구는 그이면에있는 이론의 질을 조사하는 것입니다. 담배와 폐암의 경우 흡연을 유발 한 폐암의 생물학적 메커니즘에 대한 명확한 설명 만이 논쟁을 해결했습니다.
스퓨리어스 상관 관계를 진단하기위한보다 데이터 기반 접근 방식은 통계를 사용하는 것입니다. 잔차를 조사하는 기술. 잔차가 자기 상관을 나타내는 경우 분석에서 일부 주요 변수가 누락되었을 수 있음을 의미합니다.
자세히 알아 보시겠습니까? 편리한 What is … 가이드를 확인하세요!