Las probabilidades y las razones de probabilidades son una medida importante de la probabilidad absoluta / relativa de que ocurra un evento de interés, pero su interpretación a veces es un poco complicado de dominar. En esta breve publicación, describiré estos conceptos de una manera (con suerte) clara.
De la probabilidad a las probabilidades
Nuestro punto de partida es el de usar la probabilidad para expresar la posibilidad de que ocurre un evento de interés. Por lo tanto, una probabilidad de 0.1, o 10% de riesgo, significa que hay una probabilidad de 1 en 10 de que ocurra el evento. La forma habitual de pensar sobre la probabilidad es que si pudiéramos repetir el experimento o proceso en consideración una gran cantidad de veces, la fracción de experimentos donde ocurre el evento debe estar cerca de la probabilidad (por ejemplo, 0.1).
Probabilidades fraccionarias y juegos de azar
Particularmente en el mundo de los juegos de azar, Las probabilidades a veces se expresan como fracciones, para facilitar los cálculos mentales. Por ejemplo, probabilidades de 9 a 1 en contra, dicho como «nueve a uno en contra», y escrito como 9/1 o 9: 1, significa que el evento de interés ocurre una vez por cada 9 veces que el evento no ocurre. Es decir, en 10 veces / repeticiones, esperamos que el evento de interés ocurra una vez y t El evento no sucederá en las otras 9 veces. El uso de probabilidades para expresar probabilidades es útil en un entorno de juego porque permite fácilmente calcular cuánto ganaría; con probabilidades de 9/1, ganará 9 por una apuesta de 1 (¡asumiendo que su apuesta sea buena!).
Odds ratios
En las estadísticas, los odds ratios mundiales se utilizan con frecuencia para expresar la probabilidad relativa de que un evento suceda en dos condiciones diferentes. Por ejemplo, en el contexto de un ensayo clínico que compara un tratamiento existente con un tratamiento nuevo, podemos comparar las probabilidades de experimentar un mal resultado si un paciente toma el nuevo tratamiento con las probabilidades de experimentar un mal resultado si un paciente toma el tratamiento existente.
Suponga que la probabilidad de un mal resultado es 0.2 si un paciente toma el tratamiento existente, pero que se reduce a 0.1 si toma el nuevo tratamiento. Las probabilidades de un mal resultado con el tratamiento existente son 0.2 / 0.8 = 0.25, mientras que las probabilidades del nuevo tratamiento son 0.1 / 0.9 = 0.111 (recurrente). La razón de probabilidades que compara el tratamiento nuevo con el tratamiento anterior es simplemente la razón de probabilidades correspondiente: (0.1 / 0.9) / (0.2 / 0.8) = 0.111 / 0.25 = 0.444 (recurrente). Esto significa que las probabilidades de un mal resultado si un paciente toma el nuevo tratamiento son 0.444 de las probabilidades de un mal resultado si toma el tratamiento existente. Las probabilidades (y por lo tanto la probabilidad) de un mal resultado se reducen al tomar el nuevo tratamiento. También podríamos expresar la reducción diciendo que las probabilidades se reducen en aproximadamente un 56%, ya que las probabilidades se reducen en un factor de 0,444.
¿Por qué razones de probabilidades y no razones de riesgo / probabilidad?
La gente a menudo (creo que es bastante comprensible) encuentra las probabilidades y, en consecuencia, también una razón de probabilidades, difíciles de interpretar intuitivamente. Una alternativa es calcular las razones de riesgo o probabilidad. En el ejemplo del ensayo clínico, la relación de riesgo (probabilidad de lectura) es simplemente la relación entre la probabilidad de un mal resultado con el nuevo tratamiento y la probabilidad con el tratamiento existente, es decir, 0,1 / 0,2 = 0,5. Esto significa que el riesgo de un mal resultado con el nuevo tratamiento es la mitad que con el tratamiento existente o, alternativamente, el riesgo se reduce a la mitad. Intuitivamente, la relación de riesgo es mucho más fácil de entender. Entonces, ¿por qué usamos probabilidades y razones de probabilidades en las estadísticas?
Regresión logística
A menudo queremos hacer algo más que comparar dos grupos en términos de probabilidad / riesgo / probabilidades de una Salir. Específicamente, a menudo nos interesa ajustar modelos estadísticos que describan cómo la probabilidad de que ocurra el evento de interés depende de una serie de covariables o predictores. Estos modelos pueden encajar dentro de la familia de modelos lineales generalizados. El modelo más popular es la regresión logística, que utiliza la función de enlace logit. Esta elección de función de enlace significa que los parámetros del modelo ajustado son logaritmos de razón de probabilidades, que en el software generalmente se exponencian y se informan como razones de probabilidades. La función de enlace logit se utiliza porque para un resultado binario es la llamada función de enlace canónico, que sin entrar en más detalles, significa que tiene ciertas propiedades favorables. En consecuencia, al ajustar modelos para resultados binarios, si usamos el enfoque predeterminado de regresión logística, los parámetros que estimamos son razones de probabilidades.
Una alternativa a la regresión logística es usar un modelo de regresión de enlace logarítmico, que da como resultado (log) parámetros del índice de riesgo. Desafortunadamente, históricamente, estos han sufrido problemas numéricos al intentar ajustarlos a los datos (ver aquí un artículo sobre esto).Sin embargo, también hay un problema más fundamental con la regresión de enlace de registro, ya que el enlace de registro significa que ciertas combinaciones de valores de covariables pueden llevar a probabilidades ajustadas fuera del rango (0,1).
Estudios de casos y controles
En los estudios de casos y controles, los individuos se seleccionan para el estudio con una probabilidad que depende de si experimentaron el evento de interés o no. Son particularmente útiles para estudiar enfermedades que ocurren raramente. Un estudio de casos y controles podría (intentar) inscribir a todos aquellos que experimentan el evento de interés en un período de tiempo determinado, junto con una serie de «controles», es decir, individuos que no experimentaron el evento de interés. En un estudio de casos y controles, la proporción de casos está bajo el control del investigador y, en particular, la proporción en el estudio no es representativa de la incidencia en la población objetivo. Como consecuencia, no se pueden estimar los riesgos o las relaciones de riesgo a partir de casos y controles. estudios, al menos no sin información adicional externa. Sin embargo, resulta que la razón de probabilidades aún se puede estimar de manera válida con un diseño de casos y controles, debido a una cierta propiedad de simetría que posee la razón de probabilidades.
Raro resultados
Cuando el evento de interés es raro (es decir, la probabilidad de que ocurra es baja), las probabilidades y las razones de riesgo son numéricamente bastante similares. Por lo tanto, en situaciones con resultados raros, una razón de probabilidades se puede interpretar como si era una razón de riesgo, ya que serán numéricamente similares. Sin embargo, cuando el resultado no es raro, las dos medidas pueden ser sustancialmente diferentes (ver aquí, por ejemplo).