Odds og odds-forhold er et vigtigt mål for den absolutte / relative chance for, at en begivenhed af interesse sker, men deres fortolkning er undertiden lidt vanskelig at mestre. I dette korte indlæg vil jeg beskrive disse begreber på en (forhåbentlig) klar måde.
Fra sandsynlighed til odds
Vores udgangspunkt er at bruge sandsynlighed til at udtrykke chancen for, at en begivenhed af interesse opstår. Så en sandsynlighed på 0,1 eller 10% risiko betyder, at der er en 1 ud af 10 chance for, at begivenheden finder sted. Den sædvanlige måde at tænke på sandsynligheden er, at hvis vi kunne gentage eksperimentet eller processen under overvejelse et stort antal gange skal den brøkdel af eksperimenter, hvor begivenheden finder sted, være tæt på sandsynligheden (f.eks. 0,1).
Fraktioneret odds og spil
Især i spilverdenen, odds udtrykkes undertiden som brøker for at lette mentale beregninger. For eksempel betyder odds 9 til 1 imod, sagt som “ni til en imod” og skrevet som 9/1 eller 9: 1, at begivenheden af interesse vil forekomme en gang for hver 9 gange, at begivenheden ikke finder sted. Det vil sige i 10 gange / replikationer, vi forventer, at begivenheden af interesse vil ske en gang og t han skete ikke i de andre 9 gange. Brug af odds til at udtrykke sandsynligheder er nyttigt i en spilindstilling, fordi det let giver en mulighed for at beregne, hvor meget man ville vinde – med odds 9/1 vil du vinde 9 for et væddemål på 1 (forudsat at dit væddemål er godt!).
Odds-forhold
I statistikken bruges odds-forhold ofte til at udtrykke den relative chance for, at en begivenhed finder sted under to forskellige forhold. For eksempel i forbindelse med et klinisk forsøg, der sammenligner en eksisterende behandling med en ny behandling, kan vi sammenligne oddsene for at opleve et dårligt resultat, hvis en patient tager den nye behandling med oddsene for at opleve et dårligt resultat, hvis en patient tager eksisterende behandling.
Antag, at sandsynligheden for et dårligt resultat er 0,2, hvis en patient tager den eksisterende behandling, men at dette reduceres til 0,1, hvis de tager den nye behandling. Oddsen for et dårligt resultat med den eksisterende behandling er 0,2 / 0,8 = 0,25, mens oddsene for den nye behandling er 0,1 / 0,9 = 0,111 (tilbagevendende). Oddsforholdet, der sammenligner den nye behandling med den gamle behandling, er så simpelthen det korresponderende forhold mellem odds: (0,1 / 0,9) / (0,2 / 0,8) = 0,111 / 0,25 = 0,444 (tilbagevendende). Dette betyder, at oddsene for et dårligt resultat, hvis en patient tager den nye behandling, er 0,444, end oddsene for et dårligt resultat, hvis de tager den eksisterende behandling. Oddsene (og dermed sandsynligheden) for et dårligt resultat reduceres ved at tage den nye behandling. Vi kunne også udtrykke reduktionen ved at sige, at oddsene reduceres med cirka 56%, da oddsene reduceres med en faktor på 0,444.
Hvorfor oddsforhold og ikke risiko / sandsynlighedsforhold?
Folk finder ofte (synes jeg forståeligt nok) odds og følgelig også et oddsforhold, der er vanskeligt at fortolke intuitivt. Et alternativ er at beregne risiko- eller sandsynlighedsforhold. I det kliniske forsøgseksempel er risikoforholdet (læs sandsynlighed) simpelthen forholdet mellem sandsynligheden for et dårligt resultat under den nye behandling og sandsynligheden for den eksisterende behandling, dvs. 0,1 / 0,2 = 0,5. Dette betyder, at risikoen for et dårligt resultat med den nye behandling er halvdelen af den under den eksisterende behandling, eller alternativt reduceres risikoen med halvdelen. Intuitivt er risikoforholdet meget lettere at forstå. Så hvorfor bruger vi odds og odds-forhold i statistikker?
Logistisk regression
Ofte vil vi gøre mere end blot at sammenligne to grupper med hensyn til sandsynligheden / risikoen / oddsene for en resultat. Specifikt er vi ofte interesserede i at tilpasse statistiske modeller, der beskriver, hvordan chancen for, at der opstår interesse, afhænger af et antal kovariater eller forudsigere. Sådanne modeller kan monteres inden for den generelle lineære modelfamilie. Den mest populære model er logistisk regression, der bruger logit link-funktionen. Dette valg af linkfunktion betyder, at de monterede modelparametre er log-odds-forhold, som i software normalt eksponentieres og rapporteres som odds-forhold. Logit link-funktionen bruges, fordi det for et binært resultat er den såkaldte kanoniske linkfunktion, som uden at gå i nærmere detaljer betyder, at den har visse gunstige egenskaber. Derfor, når vi tilpasser modeller til binære resultater, hvis vi bruger standardmetoden til logistisk regression, er de parametre, vi estimerer, oddsforhold.
Et alternativ til logistisk regression er at bruge en loglinkregressionsmodel, hvilket resulterer i (log) parametre for risikoforhold. Desværre har disse historisk set lidt under numeriske problemer, når de forsøger at tilpasse dem til data (se her for et papir om dette).Der er dog også et mere grundlæggende problem med loglinkregression, idet loglinket betyder, at visse kombinationer af covariate værdier kan føre til monterede sandsynligheder uden for (0,1) -området.
Case control studies
I tilfælde af kontrolundersøgelser vælges enkeltpersoner til undersøgelsen med en sandsynlighed, der afhænger af, om de oplevede begivenheden af interesse eller ej. De er især nyttige til undersøgelse af sygdomme, der sjældent forekommer. En casestyringsundersøgelse kan (forsøge) at tilmelde alle dem, der oplever begivenheden af interesse i en given periode sammen med et antal “kontroller”, dvs. personer, der ikke oplever begivenheden af interesse. I en sags kontrolundersøgelse er andelen af sager under efterforskerens kontrol, og især er andelen i undersøgelsen ikke repræsentativ for forekomsten i målpopulationen. Som en konsekvens kan man ikke estimere risiko eller risikoforhold fra sagsstyring. undersøgelser, i det mindste ikke uden ekstern yderligere information. Det viser sig imidlertid, at oddsforholdet stadig kan vurderes gyldigt med et sagsstyringsdesign på grund af en bestemt symmetriegenskab, der er i oddsforholdet.
Sjælden resultater
Når interessehændelsen er sjælden (dvs. sandsynligheden for, at den opstår, er lav), er odds og risikoforhold numerisk ret ens. Således kan situationer med sjældne resultater fortolkes som om det var et risikoforhold, da de vil være numerisk ens. Når resultatet ikke er sjældent, kan de to mål være væsentligt forskellige (se her f.eks.).