Odds en odds ratio’s zijn een belangrijke maatstaf voor de absolute / relatieve kans dat een gebeurtenis van belang plaatsvindt, maar hun interpretatie is soms een beetje lastig te beheersen. In deze korte post zal ik deze concepten op een (hopelijk) duidelijke manier beschrijven.
Van waarschijnlijkheid naar kansen
Ons uitgangspunt is dat we waarschijnlijkheid gebruiken om de kans uit te drukken dat er zich een interessante gebeurtenis voordoet. Dus een kans van 0,1, of 10% risico, betekent dat er een kans van 1 op 10 is dat de gebeurtenis zich voordoet. De gebruikelijke manier om na te denken over waarschijnlijkheid is dat als we het experiment of proces zouden kunnen herhalen een groot aantal keren moet de fractie van experimenten waarbij de gebeurtenis plaatsvindt, dicht bij de waarschijnlijkheid liggen (bijv. 0,1).
Fractionele kansen en gokken
Vooral in de gokwereld odds worden soms uitgedrukt als breuken, om mentale berekeningen te vergemakkelijken. Een odds van 9 tegen 1 tegen, gezegd als ‘negen tegen één tegen’ en geschreven als 9/1 of 9: 1, betekent dat de gebeurtenis van belang één keer voorkomen voor elke 9 keer dat de gebeurtenis niet voorkomt. Dat is in 10 keer / replicaties, we verwachten dat de gebeurtenis van belang één keer zal plaatsvinden en t Het evenement zal niet gebeuren in de andere 9 keer. Het gebruik van odds om kansen uit te drukken is handig in een gokomgeving, omdat het je gemakkelijk laat berekenen hoeveel je zou winnen – met een kans van 9/1 win je 9 voor een weddenschap van 1 (ervan uitgaande dat je weddenschap goed komt!). p>
Odds ratio’s
In de statistiekenwereld worden odds ratio’s vaak gebruikt om de relatieve kans uit te drukken dat een gebeurtenis plaatsvindt onder twee verschillende omstandigheden. In de context van een klinische proef waarin een bestaande behandeling wordt vergeleken met een nieuwe behandeling, kunnen we bijvoorbeeld de kans op een slechte uitkomst als een patiënt de nieuwe behandeling ondergaat, vergelijken met de kans op een slechte uitkomst als een patiënt de bestaande behandeling.
Stel dat de kans op een slechte uitkomst 0,2 is als een patiënt de bestaande behandeling volgt, maar dat deze wordt teruggebracht tot 0,1 als de nieuwe behandeling volgt. De kans op een slechte uitkomst met de bestaande behandeling is 0,2 / 0,8 = 0,25, terwijl de kans op een nieuwe behandeling 0,1 / 0,9 = 0,111 is (terugkerend). De odds ratio die de nieuwe behandeling vergelijkt met de oude behandeling is dan simpelweg de corresponderende odds ratio: (0,1 / 0,9) / (0,2 / 0,8) = 0,111 / 0,25 = 0,444 (terugkerend). Dit betekent dat de kans op een slechte uitkomst als een patiënt de nieuwe behandeling ondergaat 0,444 groter is dan de kans op een slechte uitkomst als hij de bestaande behandeling volgt. De kans (en dus de kans) op een slechte uitkomst wordt verkleind door de nieuwe behandeling te nemen. We zouden de reductie ook kunnen uitdrukken door te zeggen dat de odds met ongeveer 56% worden verminderd, aangezien de odds met een factor 0,444 worden verminderd.
Waarom odds-ratio’s en geen risico / waarschijnlijkheidsratio’s?
Mensen vinden odds, en bijgevolg ook een odds ratio, vaak (ik denk heel begrijpelijk) moeilijk intuïtief te interpreteren. Een alternatief is het berekenen van risico- of waarschijnlijkheidsverhoudingen. In het voorbeeld van een klinische proef is de risico (leeskans) ratio simpelweg de verhouding tussen de kans op een slechte uitkomst onder de nieuwe behandeling en de kans onder de bestaande behandeling, d.w.z. 0,1 / 0,2 = 0,5. Dit betekent dat de kans op een slechte afloop bij de nieuwe behandeling de helft is van die bij de bestaande behandeling, of anders wordt de kans gehalveerd. Intuïtief is de risicoverhouding veel gemakkelijker te begrijpen. Dus waarom gebruiken we odds en odds ratio’s in statistieken?
Logistische regressie
Vaak willen we meer doen dan alleen twee groepen vergelijken in termen van de waarschijnlijkheid / risico / odds van een resultaat. In het bijzonder zijn we vaak geïnteresseerd in passende statistische modellen die beschrijven hoe de kans dat de gebeurtenis van belang plaatsvindt afhangt van een aantal covariaten of voorspellers. Dergelijke modellen kunnen worden ingepast binnen de gegeneraliseerde lineaire modelfamilie. Het meest populaire model is logistische regressie, waarbij gebruik wordt gemaakt van de logit link-functie. Deze linkfunctie betekent dat de aangepaste modelparameters log-odds-ratio’s zijn, die in software meestal worden geëxponeerd en gerapporteerd als odds-ratio’s. De logit link-functie wordt gebruikt omdat het voor een binaire uitkomst de zogenaamde canonical link-functie is, die zonder op verdere details in te gaan, bepaalde gunstige eigenschappen heeft. Bij het aanpassen van modellen voor binaire uitkomsten, als we de standaardbenadering van logistische regressie gebruiken, zijn de parameters die we schatten odds ratio’s.
Een alternatief voor logistische regressie is om een log link regressiemodel te gebruiken, wat resulteert in (log) risicoverhoudingparameters. Helaas hebben deze historisch gezien numerieke problemen gehad wanneer ze probeerden ze aan gegevens in te passen (zie hier voor een artikel hierover).Er is echter ook een meer fundamenteel probleem met loglinkregressie, in die zin dat de loglink betekent dat bepaalde combinaties van covariabele waarden kunnen leiden tot aangepaste waarschijnlijkheden buiten het bereik van (0,1).
Case control studies
In geval van controlestudies worden individuen voor het onderzoek geselecteerd met een waarschijnlijkheid die afhangt van het feit of ze de gebeurtenis van interesse hebben meegemaakt of niet. Ze zijn bijzonder nuttig voor het bestuderen van ziekten die zelden voorkomen. Een case-control-studie zou kunnen (proberen) al diegenen in te schrijven die de gebeurtenis van interesse in een bepaalde periode ervaren, samen met een aantal “controles”, d.w.z. individuen die de gebeurtenis van interesse niet hebben meegemaakt. In een case-control-studie staat het aandeel gevallen onder de controle van de onderzoeker, en met name het aandeel in de studie is niet representatief voor de incidentie in de doelpopulatie. Als gevolg hiervan kan men de risico’s of risicoverhoudingen niet schatten op basis van case-control studies, althans niet zonder externe aanvullende informatie. Het blijkt echter dat de odds ratio nog steeds geldig kan worden geschat met een case control design, vanwege een bepaalde symmetrie-eigenschap die de odds ratio bezit.
Zeldzaam uitkomsten
Als de gebeurtenis die van belang is zeldzaam is (dwz de kans dat deze zich voordoet is laag), zijn de odds en risicoverhoudingen numeriek vrij gelijkaardig. In situaties met zeldzame uitkomsten kan een odds ratio dus worden geïnterpreteerd alsof het was een risicoverhouding, aangezien ze numeriek vergelijkbaar zullen zijn. Als de uitkomst echter niet zeldzaam is, kunnen de twee metingen aanzienlijk verschillen (zie hier bijvoorbeeld).