Estoy estudiando cómo construir un intervalo de confianza del 95% para odds ratio a partir de los coeficientes obtenidos en la regresión logística. Entonces, considerando el modelo de regresión logística,
tal que para el grupo de control para el grupo de casos.
Ya he leído que la forma más simple es construir un IC del 95% para luego aplicamos la función exponencial, es decir,
Mis preguntas son:
¿Cuál es la razón teórica que justifica este procedimiento? Sé que y los estimadores de máxima verosimilitud son invariables. Sin embargo, no sé la conexión entre estos elementos.
¿Debería el método delta producir el mismo intervalo de confianza del 95% que el procedimiento anterior? Usando el método delta,
Luego,
Si no, ¿cuál es el mejor procedimiento?
fuente
Respuestas:
La justificación del procedimiento es la normalidad asintótica del MLE para y los resultados de los argumentos relacionados con el Teorema del límite central.β
El método Delta proviene de una expansión lineal (es decir, Taylor de primer orden) de la función alrededor del MLE. Posteriormente apelamos a la normalidad asintótica e imparcialidad del MLE.
Asintóticamente, ambos dan la misma respuesta. Pero prácticamente, preferirías el que parece más normal. En este ejemplo, preferiría el primero porque es probable que este último sea menos simétrico.
fuente
Una comparación de los métodos de intervalos de confianza en un ejemplo de ISL
El libro "Introducción al aprendizaje estadístico" de Tibshirani, James, Hastie proporciona un ejemplo en la página 267 de intervalos de confianza para el grado de regresión logística polinómica 4 en los datos salariales . Citando el libro:
A continuación se muestra un resumen rápido de dos métodos para construir tales intervalos, así como comentarios sobre cómo implementarlos desde cero
Intervalos de transformación de Wald / Endpoint
Dado que es una transformación monotónica dex T βPAGr ( xTβ) = F( xTβ) XTβ
Concretamente, esto significa calcular y luego aplicar la transformación logit al resultado para obtener los límites inferior y superior:βTx ± z∗Smi( βTx )
Calculando el error estándar
La teoría de máxima verosimilitud nos dice que la varianza aproximada de se puede calcular usando la matriz de covarianza de los coeficientes de regresión usandoXTβ Σ
Defina la matriz de diseño y la matriz comoX V
donde es el valor de la ésimo variable para los th observaciones y representa la probabilidad predicha para la observación .Xi , j j yo π^yo yo
La matriz de covarianza se puede encontrar como: y el error estándar comoΣ = (XTV X)- 1 Smi( xTβ) = Va r ( xTβ)--------√
Los intervalos de confianza del 95% para la probabilidad pronosticada se pueden representar como
Intervalos de confianza del método Delta
El enfoque consiste en calcular la varianza de una aproximación lineal de la función y usarla para construir intervalos de confianza de muestra grandes.F
Donde es el gradiente y la matriz de covarianza estimada. Tenga en cuenta que en una dimensión:∇ Σ
Donde es la derivada de . Esto se generaliza en el caso multivariante.f F
En nuestro caso, F es la función logística (que denotaremos ) cuya derivada esπ(xTβ)
Ahora podemos construir un intervalo de confianza utilizando la varianza calculada anteriormente.
En forma vectorial para el caso multivariante
Una conclusión abierta
Una mirada a las gráficas de QQ normal tanto para las probabilidades como para las probabilidades de registro negativas muestra que ninguna de las dos se distribuye normalmente. ¿Podría esto explicar la diferencia?
Fuente:
fuente
Para la mayoría de los propósitos, la forma más simple es probablemente la mejor, como se discute en el contexto de una transformación de registro en esta página . Piense en su variable dependiente como analizada en la escala logit, con pruebas estadísticas realizadas e intervalos de confianza (IC) definidos en esa escala logit. La transformación inversa a odds ratio es simplemente poner esos resultados en una escala que un lector pueda comprender más fácilmente. Esto también se hace, por ejemplo, en el análisis de supervivencia de Cox, donde los coeficientes de regresión (y el IC del 95%) se exponen para obtener las razones de riesgo y su IC.
fuente