Buscando una comprensión teórica de la regresión logística de Firth

13

Estoy tratando de entender la regresión logística de Firth (método de manejo de separación perfecta / completa o cuasi-completa en regresión logística) para poder explicarlo a otros en términos simplificados. ¿Alguien tiene una explicación tonta de qué modificación está haciendo la estimación de Firth a MLE?

Leí, lo mejor que pude, Firth (1993) y entiendo que se está aplicando una corrección a la función de puntuación. Estoy confuso sobre el origen y la justificación de la corrección y qué papel juega la función de puntuación en MLE.

Lo siento si esto es conocimiento rudimentario. La literatura que he revisado parece requerir una comprensión mucho más profunda de MLE que la que poseo.

ESmith5988
fuente

Respuestas:

11

La corrección de Firth es equivalente a especificar el previo de Jeffrey y buscar el modo de la distribución posterior. Aproximadamente, agrega la mitad de una observación al conjunto de datos suponiendo que los valores verdaderos de los parámetros de regresión son iguales a cero.

El artículo de Firth es un ejemplo de asintóticos de orden superior. El orden nulo, por así decirlo, lo proporcionan las leyes de los números grandes: en muestras grandes, donde es el valor verdadero. Es posible que haya aprendido que los MLE son asintóticamente normales, aproximadamente porque se basan en transformaciones no lineales de sumas de variables iid (puntuaciones). Esta es la aproximación de primer orden: donde es una variante normal con media cero y varianza (o matriz var-cov) que es la inversa de la información de Fisher para observación única. El estadístico de prueba de razón de probabilidad es asintóticamenteθ^nθ0θ0θn=θ0+O(n1/2)=θ0+v1n1/2+o(n1/2)v1σ12n(θ^nθ0)2/σ12χ12 o cualesquiera que sean las extensiones multivariadas de los productos internos y las matrices de covarianza inversa.

Los asintóticos de orden superior intentan aprender algo sobre el próximo término , generalmente descifrando el siguiente término . De esa manera, las estimaciones y las estadísticas de prueba pueden incorporar los sesgos de muestra pequeños del orden de (si ve el documento que dice "tenemos MLE imparciales", estas personas probablemente no sepan de qué están hablando). La corrección más conocida de este tipo es la corrección de Bartlett para las pruebas de razón de probabilidad. La corrección de Firth también es de ese orden: agrega una cantidad fija (arriba de la página 30) a la probabilidad, y en grandes muestras la contribución relativa de esa cantidad desaparece a la velocidad de empequeñecido por la información de la muestra.O ( n - 1 ) 1 / n 1o(n1/2)O(n1)1/n1/n12lndetI(θ)1/n

StasK
fuente
Perdón por mi falta de comprensión, pero no estoy siguiendo completamente. Cuando dice "Aproximadamente, agrega la mitad de una observación al conjunto de datos suponiendo que los valores verdaderos de los parámetros de regresión son iguales a cero". ¿Por qué asumirías que los valores verdaderos de los parámetros de regresión son iguales a cero? Además, ¿cómo se agrega la mitad de una observación al conjunto de datos?
ESmith5988
Del resto de su explicación, parece que la función de probabilidad se está ajustando por una cantidad fija que reduce el sesgo positivo de las muestras pequeñas. La cantidad fija es efectivamente una función de la información que llega a cero a medida que aumenta el tamaño de la muestra, ¿correcto?
ESmith5988
En su primer comentario: la corrección de Firth es aproximadamente el valor esperado de una contribución a la probabilidad que habría sido agregada por una observación que tendría un peso efectivo de 1/2. Esta no es la explicación correcta, y mucho menos la intuición de por qué quieres hacer esto; solo te da el sabor. Establece los coeficientes a cero porque no tiene una mejor idea de cuáles serán los números (y los coeficientes cero corresponden muy bien a ningún efecto de los regresores, lo cual es significativo la mayor parte del tiempo). En su segundo comentario, correcto.
StasK