Szanse i współczynniki szans są ważną miarą bezwzględnej / względnej szansy zajścia zdarzenia będącego przedmiotem zainteresowania, ale ich interpretacja jest czasami trochę trudne do opanowania. W tym krótkim poście opiszę te pojęcia w (miejmy nadzieję) jasny sposób.
Od prawdopodobieństwa do szans
Punktem wyjścia jest użycie prawdopodobieństwa do wyrażenia prawdopodobieństwa, że wystąpi interesujące zdarzenie. Zatem prawdopodobieństwo 0,1 lub 10% ryzyka oznacza, że istnieje prawdopodobieństwo 1 do 10, że takie zdarzenie wystąpi. Zwykły sposób myślenia o prawdopodobieństwie jest taki, że gdybyśmy mogli powtórzyć rozważany eksperyment lub proces bardzo często odsetek eksperymentów, w których dochodzi do zdarzenia, powinien być bliski prawdopodobieństwu (np. 0,1).
Ułamkowe kursy i hazard
Szczególnie w świecie hazardu, kursy są czasami wyrażane jako ułamki, aby ułatwić obliczenia w myślach. Na przykład szanse od 9 do 1 przeciwko, określane jako „dziewięć do jednego przeciwko” i zapisywane jako 9/1 lub 9: 1, oznaczają, że zdarzenie zainteresowania będzie wystąpi raz na 9 razy, gdy zdarzenie nie wystąpi. To znaczy 10 razy / powtórzenia, spodziewamy się, że zdarzenie będące przedmiotem zainteresowania wystąpi raz it W pozostałych 9 przypadkach zdarzenie nie miało miejsca. Używanie kursów do wyrażania prawdopodobieństwa jest przydatne w grach hazardowych, ponieważ pozwala łatwo obliczyć, ile można wygrać – przy kursie 9/1 wygrasz 9 za zakład 1 (zakładając, że Twój zakład jest dobry!).
Ilorazy szans
W statystykach współczynniki kursów na świecie są często używane do wyrażenia względnej szansy na wystąpienie zdarzenia w dwóch różnych warunkach. Na przykład w kontekście badania klinicznego porównującego istniejące leczenie z nowym leczeniem, możemy porównać prawdopodobieństwo wystąpienia złego wyniku, jeśli pacjent podejmie nowe leczenie, z prawdopodobieństwem wystąpienia złego wyniku, jeśli pacjent podejmie istniejące leczenie.
Załóżmy, że prawdopodobieństwo złego wyniku wynosi 0,2, jeśli pacjent stosuje istniejące leczenie, ale zmniejsza się do 0,1, jeśli podejmie nowe leczenie. Szansa na zły wynik przy istniejącym leczeniu wynosi 0,2 / 0,8 = 0,25, podczas gdy szanse na nowe leczenie wynoszą 0,1 / 0,9 = 0,111 (nawrót). Iloraz szans porównujący nowe leczenie ze starym leczeniem jest zatem po prostu odpowiednim stosunkiem szans: (0,1 / 0,9) / (0,2 / 0,8) = 0,111 / 0,25 = 0,444 (powtarzające się). Oznacza to, że prawdopodobieństwo złego wyniku, jeśli pacjent podejmie nowe leczenie, jest równe 0,444 szansy na zły wynik, jeśli zastosuje istniejące leczenie. Szanse (a tym samym prawdopodobieństwo) złego wyniku są zmniejszane przez zastosowanie nowego leczenia. Możemy również wyrazić redukcję, mówiąc, że szanse są zmniejszone o około 56%, ponieważ szanse są zmniejszone o współczynnik 0,444.
Dlaczego współczynniki szans, a nie współczynniki ryzyko / prawdopodobieństwo?
Ludzie często (myślę, że to całkiem zrozumiałe) znajdują szanse, a co za tym idzie, iloraz szans, trudny do intuicyjnej interpretacji. Alternatywą jest obliczenie współczynników ryzyka lub prawdopodobieństwa. W przykładzie badania klinicznego współczynnik ryzyka (prawdopodobieństwo odczytu) to po prostu stosunek prawdopodobieństwa złego wyniku w ramach nowego leczenia do prawdopodobieństwa w ramach istniejącego leczenia, tj. 0,1 / 0,2 = 0,5. Oznacza to, że ryzyko złego wyniku w przypadku nowego leczenia jest o połowę mniejsze niż w przypadku istniejącego leczenia, lub alternatywnie ryzyko jest zmniejszone o połowę. Intuicyjnie współczynnik ryzyka jest znacznie łatwiejszy do zrozumienia. Dlaczego więc używamy szans i współczynników szans w statystykach?
Regresja logistyczna
Często chcemy zrobić coś więcej niż tylko porównać dwie grupy pod względem prawdopodobieństwa / ryzyka / szansy wynik. W szczególności często jesteśmy zainteresowani dopasowaniem modeli statystycznych, które opisują, w jaki sposób prawdopodobieństwo wystąpienia interesującego zdarzenia zależy od wielu zmiennych towarzyszących lub predyktorów. Takie modele można dopasować do uogólnionej rodziny modeli liniowych. Najpopularniejszym modelem jest regresja logistyczna, która wykorzystuje funkcję łączenia logit. Ten wybór funkcji łączenia oznacza, że parametry dopasowanego modelu są logarytmicznymi ilorazami szans, które w oprogramowaniu są zwykle potęgowane i przedstawiane jako iloraz szans. Funkcja łączenia logit jest używana, ponieważ dla wyniku binarnego jest to tak zwana funkcja łącza kanonicznego, która bez wchodzenia w dalsze szczegóły oznacza, że ma pewne korzystne właściwości. W konsekwencji, dopasowując modele dla wyników binarnych, jeśli użyjemy domyślnego podejścia regresji logistycznej, parametrami, które szacujemy, są ilorazami szans.
Alternatywą dla regresji logistycznej jest użycie modelu regresji logistycznej, co skutkuje (log) parametry współczynnika ryzyka. Niestety w przeszłości cierpiały one z powodu problemów liczbowych podczas próby dopasowania ich do danych (zobacz tutaj artykuł na ten temat).Jednak istnieje również bardziej fundamentalny problem związany z regresją logarytmów, polegający na tym, że łącze logarytmiczne oznacza, że pewne kombinacje wartości zmiennych towarzyszących mogą prowadzić do dopasowanych prawdopodobieństw poza zakresem (0,1).
Badania kontrolne
W przypadku badań kontrolnych osoby są wybierane do badania z prawdopodobieństwem, które zależy od tego, czy doświadczyły interesującego ich zdarzenia, czy nie. Są szczególnie przydatne do badania rzadko występujących chorób. Studium kontrolne przypadku może (próbować) włączyć wszystkich tych, którzy doświadczyli zdarzenia będącego przedmiotem zainteresowania w danym okresie, wraz z szeregiem „kontroli”, tj. Osób, które nie doświadczyły zdarzenia będącego przedmiotem zainteresowania. W badaniu kontrolnym przypadku odsetek przypadków jest pod kontrolą badacza, a w szczególności odsetek przypadków w badaniu nie jest reprezentatywny dla częstości występowania w populacji docelowej. W konsekwencji nie można oszacować ryzyka ani współczynników ryzyka na podstawie kontroli przypadku badań, przynajmniej nie bez dodatkowych zewnętrznych informacji. Okazuje się jednak, że iloraz szans można nadal rzetelnie oszacować za pomocą projektu kontroli przypadku, ze względu na pewną właściwość symetrii, którą posiada iloraz szans.
Rzadko wyniki
Gdy zdarzenie będące przedmiotem zainteresowania jest rzadkie (tj. prawdopodobieństwo jego wystąpienia jest niskie), szanse i współczynniki ryzyka są liczbowo dość podobne. Dlatego w sytuacjach z rzadkimi wynikami iloraz szans można interpretować tak, jakby był to współczynnik ryzyka, ponieważ będą one liczbowo podobne. Jeśli jednak wynik nie jest rzadki, te dwie miary mogą się znacznie różnić (patrz na przykład tutaj).