Odds och odds-förhållanden är ett viktigt mått på den absoluta / relativa chansen att en händelse av intresse händer, men deras tolkning är ibland lite knepigt att bemästra. I det här korta inlägget kommer jag att beskriva dessa begrepp på ett (förhoppningsvis) tydligt sätt.
Från sannolikhet till odds
Vår utgångspunkt är att använda sannolikhet för att uttrycka chansen att en händelse av intresse inträffar. Så en sannolikhet på 0,1 eller 10% risk innebär att det finns 1 till 10 chans att händelsen inträffar. Det vanliga sättet att tänka på sannolikheten är att om vi kunde upprepa experimentet eller processen som övervägs ett stort antal gånger bör fraktionen av experiment där händelsen inträffar vara nära sannolikheten (t.ex. 0,1).
Fraktionerade odds och spel
Särskilt i spelvärlden, oddsen uttrycks ibland som bråk, för att underlätta mentala beräkningar. Till exempel betyder odds 9 till 1 mot, sagt som ”nio mot en mot” och skrivna som 9/1 eller 9: 1, att händelsen av intresse kommer att inträffar en gång var nionde gång som händelsen inte inträffar. Det vill säga i tio gånger / replikationer, vi förväntar oss att händelsen av intresse ska inträffa en gång och t han skulle inte hända de andra nio gånger. Att använda odds för att uttrycka sannolikheter är användbart i en spelinställning eftersom det lätt gör det möjligt för en att beräkna hur mycket man skulle vinna – med odds 9/1 vinner du 9 för en insats på 1 (förutsatt att din insats blir bra!).
Oddsförhållanden
I statistiken används världsoddsförhållanden ofta för att uttrycka den relativa chansen att en händelse händer under två olika förhållanden. Till exempel, i samband med en klinisk studie som jämför en befintlig behandling med en ny behandling, kan vi jämföra oddsen för att uppleva ett dåligt resultat om en patient tar den nya behandlingen med oddsen för att uppleva ett dåligt resultat om en patient tar befintlig behandling.
Antag att sannolikheten för ett dåligt resultat är 0,2 om en patient tar den befintliga behandlingen, men att denna minskas till 0,1 om de tar den nya behandlingen. Oddsen för ett dåligt resultat med den befintliga behandlingen är 0,2 / 0,8 = 0,25, medan oddsen för den nya behandlingen är 0,1 / 0,9 = 0,111 (återkommande). Oddsförhållandet som jämför den nya behandlingen med den gamla behandlingen är då helt enkelt motsvarande oddsförhållande: (0,1 / 0,9) / (0,2 / 0,8) = 0,111 / 0,25 = 0,444 (återkommande). Detta innebär att oddsen för ett dåligt resultat om en patient tar den nya behandlingen är 0.444 den för oddsen för ett dåligt resultat om de tar den befintliga behandlingen. Oddsen (och därmed sannolikheten) för ett dåligt resultat minskas genom att ta den nya behandlingen. Vi kan också uttrycka minskningen genom att säga att oddsen minskas med ungefär 56%, eftersom oddsen minskas med en faktor på 0.444.
Varför oddskvoter och inte risk / sannolikhetsförhållanden?
Människor hittar ofta (tror jag ganska förståeligt) odds och följaktligen också ett oddsförhållande, svårt att intuitivt tolka. Ett alternativ är att beräkna risk- eller sannolikhetsförhållanden. I det kliniska prövningsexemplet är riskförhållandet (läs sannolikhet) helt enkelt förhållandet mellan sannolikheten för ett dåligt resultat under den nya behandlingen och sannolikheten under den befintliga behandlingen, dvs. 0,1 / 0,2 = 0,5. Detta innebär att risken för ett dåligt resultat med den nya behandlingen är hälften så stor som under den befintliga behandlingen, eller alternativt minskas risken med hälften. Intuitivt är riskkvoten mycket lättare att förstå. Så varför använder vi odds och odds i statistik?
Logistisk regression
Vi vill ofta göra mer än att bara jämföra två grupper när det gäller sannolikheten / risken / oddsen för en resultat. Specifikt är vi ofta intresserade av att anpassa statistiska modeller som beskriver hur chansen att intressehändelsen inträffar beror på ett antal kovariater eller prediktorer. Sådana modeller kan monteras inom den generella linjära modellfamiljen. Den mest populära modellen är logistisk regression, som använder logit-länkfunktionen. Detta val av länkfunktion innebär att de anpassade modellparametrarna är loggoddsförhållanden, som i mjukvaran vanligtvis exponentieras och rapporteras som oddsförhållanden. Logit-länkfunktionen används för att för ett binärt utfall är det den så kallade kanoniska länkfunktionen, som utan att gå in på ytterligare detaljer innebär att den har vissa gynnsamma egenskaper. Följaktligen när vi använder modeller för binära resultat, om vi använder standardmetoden för logistisk regression, är parametrarna vi uppskattar oddskvoter.
Ett alternativ till logistisk regression är att använda en logg-regressionsmodell, vilket resulterar i (log) parametrar för riskförhållande. Tyvärr har dessa historiskt sett drabbats av numeriska problem när de försöker anpassa dem till data (se här för en artikel om detta).Det finns emellertid också en mer grundläggande fråga med log-länkregression, genom att log-länken innebär att vissa kombinationer av kovariata värden kan leda till anpassade sannolikheter utanför (0,1) -området.
Fallkontrollstudier
I fallstudier väljs individer ut i studien med en sannolikhet som beror på om de upplevde händelsen av intresse eller inte. De är särskilt användbara för att studera sjukdomar som sällan uppträder. En fallkontrollstudie kan (försöka) registrera alla dem som upplever händelsen av intresse under en viss tidsperiod, tillsammans med ett antal ”kontroller”, dvs individer som inte upplevde händelsen av intresse. I en fallkontrollstudie är andelen fall under utredarens kontroll, och i synnerhet är andelen i studien inte representativ för incidensen i målpopulationen. Som en konsekvens kan man inte uppskatta risk eller riskförhållanden från fallkontroll. studier, åtminstone inte utan extern ytterligare information. Det visar sig dock att oddskvoten fortfarande kan uppskattas giltigt med en fallkontrolldesign på grund av en viss symmetriegenskap som oddskvoten har.
Sällsynt resultat
När intresset är sällsynt (dvs sannolikheten för att det inträffar är låg) är oddsen och riskförhållandena numeriskt ganska lika. I situationer med sällsynta resultat kan ett oddskvot tolkas som om det var ett riskförhållande eftersom de kommer att vara numeriskt lika. Men när resultatet inte är sällsynt kan de två måtten vara väsentligt olika (se här till exempel).