Me ha costado mucho tratar de comprender el uso de la regresión logística en un artículo. El documento disponible aquí utiliza la regresión logística para predecir la probabilidad de complicaciones durante la cirugía de cataratas.
Lo que me confunde es que el documento presenta un modelo que asigna una razón de probabilidad de 1 a la línea de base que se describe a continuación:
Un paciente cuyo perfil de riesgo estaba en el grupo de referencia para todos los indicadores de riesgo (es decir, OR ajustado = 1.00 para todos en la Tabla 1) puede considerarse que tiene un "perfil de riesgo de referencia", y el modelo de regresión logística indica una "probabilidad predicha de referencia" para PCR o VL o ambos = 0.736%.
Por lo tanto, la probabilidad de 0.00736 se presenta con una razón de probabilidades de 1. Basado en la transformación de probabilidades a razones de probabilidades: , esto no puede ser igual a 1: .
Se vuelve aún más confuso. Las razones de probabilidades compuestas que representan múltiples covariables que tienen valores diferentes a la línea de base se usan para calcular el riesgo predicho.
... el OR compuesto de la Tabla 1 sería 1.28 X 1.58 X 2.99 X 2.46 X 1.45 X 1.60 = 34.5, y del gráfico de la Figura 1, vemos que este OR corresponde con una probabilidad predicha de PCR o VL o ambas alrededor del 20%
La única forma de llegar a los valores que el documento está dando como ejemplos es multiplicar la probabilidad de referencia con probabilidades compuestas como esta: .
Entonces, ¿qué está pasando aquí? ¿Cuál es la lógica para asignar odds ratio 1 a una probabilidad de referencia que no sea 0.5? La fórmula de actualización que se me ocurrió anteriormente presenta las probabilidades correctas para los ejemplos en el documento, pero esta no es la multiplicación directa de la razón de probabilidades que esperaría. ¿Entonces que es?
fuente
Respuestas:
Las probabilidades son una forma de expresar oportunidades. Las razones de probabilidades son solo eso: una cuota dividida por otra. Eso significa que una razón de probabilidades es lo que multiplica una probabilidad para producir otra. Veamos cómo funcionan en esta situación común.
Conversión entre probabilidades y probabilidad
La expresión equivalente a la derecha muestra que es suficiente modelar para encontrar las probabilidades. Por el contrario, tenga en cuenta que podemos resolverPr ( Y= 1 )
Regresión logística
La regresión logística modela el logaritmo de las probabilidades de como una función lineal de variables explicativas. En general, escribiendo estas variables como , e incluyendo un posible término constante en la función lineal, podemos nombrar los coeficientes (que se estimarán a partir de los datos) como y . Formalmente esto produce el modelox 1 , ... , x p β 1 , ... , β p β 0Y X1, ... , xpag β1, ... , βpag β0 0
Las probabilidades mismas pueden recuperarse deshaciendo el logaritmo:
Usando variables categóricas
Las variables categóricas, como el grupo de edad, el sexo, la presencia de glaucoma, etc. , se incorporan mediante "codificación ficticia". Para mostrar que no importa cómo se codifica la variable, proporcionaré un ejemplo simple de un grupo pequeño; su generalización a múltiples grupos debería ser obvia. En este estudio, una variable es "tamaño de la pupila", con tres categorías, "Grande", "Mediano" y "Pequeño". (El estudio los trata como puramente categóricos, aparentemente sin prestar atención a su orden inherente). Intuitivamente, cada categoría tiene sus propias probabilidades, digamos para "Grande", para "Medio" y para "Pequeño" . Esto significa que, todas las demás cosas iguales,α M α SαL αMETRO αS
para cualquiera en la categoría "Grande",
para cualquiera en la categoría "Medio", y
para aquellos en la categoría "Pequeño".
Crear coeficientes identificables
He coloreado los dos primeros coeficientes para resaltarlos, porque quiero que note que permiten que ocurra un cambio simple: podríamos elegir cualquier número y, al sumarlo a y restarlo de cada uno de , y , no cambiaríamos ninguna probabilidad pronosticada. Esto se debe a las equivalencias obvias de la forma.β 0 α L α M α Sγ β0 0 αL αMETRO αS
etc. Aunque esto no presenta problemas para el modelo, todavía predice exactamente las mismas cosas, muestra que los parámetros no son en sí mismos interpretables. Lo que permanece igual cuando hacemos esta maniobra de suma y resta son las diferencias entre los coeficientes. Convencionalmente, para abordar esta falta de identificabilidad, las personas (y, por defecto, el software) eligen una de las categorías en cada variable como "base" o "referencia" y simplemente estipulan que su coeficiente será cero. Esto elimina la ambigüedad.
El artículo enumera primero las categorías de referencia; "Grande" en este caso. Por lo tanto, se resta de cada uno de y , y se agrega a para compensar.α L , α M , α S β 0αL αL, αMETRO, αS β0 0
Las probabilidades de registro para un individuo hipotético que cae en todas las categorías base, por lo tanto, es igual a más un grupo de términos asociados con todas las demás "covariables", las variables no categóricas:β0 0
No hay términos asociados con las variables categóricas se presentan aquí. (He cambiado ligeramente la notación en este punto: las betas ahora son los coeficientes solo de las covariables , mientras que el modelo completo incluye los para las diversas categorías).α jβyo αj
Comparación de probabilidades
Comparemos las probabilidades. Supongamos que un individuo hipotético es un
Asociados con este paciente (llamémoslo Charlie) se encuentran los coeficientes estimados para cada categoría: para su grupo de edad, para ser hombre, y así sucesivamente. Dondequiera que su atributo sea la base de su categoría, el coeficiente es cero por convención , como hemos visto. Debido a que este es un modelo lineal, los coeficientes se suman. Por lo tanto, para las probabilidades de registro base dadas anteriormente, las probabilidades de registro para este paciente se obtienen sumandoα machoα80-89 αmasculino
Esta es precisamente la cantidad por la cual las probabilidades de registro de este paciente varían de la base. Para convertir de las probabilidades de registro, deshaga el logaritmo y recuerde que esto convierte la suma en multiplicación. Por lo tanto, las probabilidades básicas deben multiplicarse por
Estos son los números dados en la tabla bajo "OR ajustado" (odds ratio ajustado). (Se llama "ajustado" porque las covariables se incluyeron en el modelo. No juegan ningún papel en ninguno de nuestros cálculos, como verá. Se llama "relación" porque es precisamente la cantidad por cuyas probabilidades básicas se deben multiplicar para producir las probabilidades pronosticadas del paciente: consulte el primer párrafo de esta publicación.) En orden en la tabla, son , , , y así sucesivamente. Según el artículo, su producto funciona a . Por lo tantoX1, ... , xpag Exp( α80-89) = 1.58 Exp( αmasculino) = 1.28 Exp( αsin glaucoma) = 1.00 34,5
(Observe que todas las categorías base tienen razones de probabilidad de , porque incluir en el producto lo deja sin cambios. Así es como puede detectar las categorías base en la tabla).1.00 = exp( 0 ) 1
Reexpresar los resultados como probabilidades
Finalmente, convirtamos este resultado en probabilidades. Nos dijeron que la probabilidad prevista de referencia es . Por lo tanto, utilizando las fórmulas que relacionan las probabilidades y las probabilidades derivadas al principio, podemos calcular0.736 % = 0.00736
En consecuencia, las probabilidades de Charlie son
Finalmente, convertir esto de nuevo a probabilidades da
fuente