2つの変数が統計的に関連しているが、直接因果関係がない場合、疑似相関が発生します。これらの2つの変数は、通常は目に見えない3番目の要因が原因で、誤って相互に関連しているように見えます。
たとえば、過去30年間で、映画のチケットの価格が上昇し、その数が増加しました。映画館に参加する人の数も増えています。しかし、映画館が値上げすれば、出席者も増えると結論付けるのは間違いです。同様に、価格の上昇が出席率の上昇によって直接引き起こされたと考えるのは誤りです。
疑似相関の例
下のグラフの各ドットは、数値を示しています。鉄道衝突によるドライバーの死亡数(水平位置)、および米国によるノルウェー原油の年間輸入量。相関統計が0.95のデータには、明らかな強い相関があります。しかし、鉄道の死が石油の輸入を引き起こす、またはその逆であると信じる理由がないため、これは疑似相関です。
スプリアス相関の原因
スプリアス相関の原因の1つは偶然です。よく見ると、自然界では偶然の不足はありません。上記の具体例は、ユーモラスなスプリアスの検索と共有を専門とするWebサイトからのものです。相関。
より問題のあるタイプの疑似相関は、2つの変数の間に因果関係があるが直接的な関係がない場合です。映画館の出席と価格の前の例では、出席中のインフレーションのために価格が上昇します。人口の増加と可処分所得のレベルの上昇により増加します。どちらも時間の経過とともに発生します。したがって、3番目の変数timeは、相関関係を「引き起こし」ます。
疑似相関関係の診断
一人の理論はanoであるため、通常、疑似相関を診断することは困難です。その人の陰謀説または偶然。この最も有名な最近の例は、地球温暖化が人間の行動の結果であるかどうかについての議論でした。 20世紀には、タバコの使用が肺がんを引き起こしたかどうかについて同様の議論が起こりました。
相関が偽であるかどうかを診断する主なツールは、その背後にある理論の質を調べることです。タバコと肺がんの場合、喫煙が肺がんにつながる原因となった生物学的メカニズムの明確な説明だけが議論を解決しました。
疑似相関を診断するためのよりデータ主導のアプローチは、統計を使用することです。残差を調べる手法。残差が自己相関を示す場合、これは、いくつかの重要な変数が分析から欠落している可能性があることを示しています。
詳細を知りたいですか?便利なWhatis …ガイドをご覧ください!