Mikä on väärä korrelaatio?

Väärä korrelaatio tapahtuu, kun kaksi muuttujaa on tilastollisesti yhteydessä toisiinsa, mutta ei suoraan kausaalisesti. Nämä kaksi muuttujaa näyttävät väärin liittyvän toisiinsa, yleensä näkymättömän kolmannen tekijän takia.

Esimerkiksi elokuvalippujen hinta on noussut viimeisten 30 vuoden aikana ja lukumäärä myös elokuvateattereissa käyvien ihmisten määrä on noussut. Olisi kuitenkin virhe päätellä, että jos elokuvateatterit korottavat hintojaan, myös katsojien määrä kasvaa. Samoin olisi väärin olettaa, että hintojen nousu johtui suoraan osallistumisasteiden noususta.

Esimerkki väärästä korrelaatiosta

Alla olevan kaavion kukin piste näyttää luvun kuljettajien kuolemantapaukset rautatieliikenteen törmäyksissä vuodessa (horisontaalinen asema) ja Norjan raakaöljyn vuosittainen tuonti Yhdysvalloista. Aineistossa on voimakas korrelaatio, jonka korrelaatiotilasto on 0,95. Tämä on kuitenkin väärä korrelaatio, koska ei ole syytä uskoa, että rautatiekuolemat aiheuttaisivat öljyn tuontia, tai päinvastoin.

Väärän korrelaation syyt

Yksi väärän korrelaation syy on sattuma. Jos katsot tarpeeksi kovaa, sattumissa ei ole pulaa luonnossa. Yllä oleva erityinen esimerkki on verkkosivustolta, joka on omistettu humorististen väärennösten löytämiselle ja jakamiselle. korrelaatiot.

Ongelmallisempi väärennöskorrelaatio on sellainen, jossa näiden kahden muuttujan välillä on syy-yhteys, mutta ei suoraa yhteyttä. Aikaisemmassa elokuvateatterilukujen ja hintojen esimerkissä hinnat nousevat inflaation takia, kun taas vierailijat lisääntyy väestönkasvun ja käytettävissä olevien tulojen korkeamman tason vuoksi – molemmat tapahtuvat ajan myötä. Siten kolmas muuttuja, aika, ”aiheuttaa” korrelaation.

Väärän korrelaation diagnosointi

Väärän korrelaation diagnosointi on yleensä vaikeaa, koska yhden ihmisen teoria on ano henkilön salaliittoteoria tai sattuma. Viimeisin tunnetuin esimerkki tästä oli keskustelu siitä, onko ilmaston lämpeneminen seurausta ihmisen toiminnasta vai ei. 1900-luvulla käytiin samanlainen keskustelu siitä, aiheuttaako tupakan käyttö keuhkosyöpää.

Tärkein työkalu korrelaation väärinkäytön diagnosoinnissa on tutkia sen taustalla olevan teorian laatua. Tupakan ja keuhkosyövän osalta keskustelun ratkaisi vain selkeä selitys biologiselle mekanismille, joka sai tupakoinnin johtamaan keuhkosyöpään.

Tietoihin perustuvampi lähestymistapa väärän korrelaation diagnosoimiseksi on käyttää tilastollisia tietoja. tekniikoita jäännösten tutkimiseen. Jos jäännöksillä on autokorrelaatio, tämä viittaa siihen, että jokin avainmuuttuja saattaa puuttua analyysistä.

Haluatko lisätietoja? Katso kätevät Mikä on … -oppaamme!

Leave a Reply

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *