Prueba de bondad de ajuste en regresión logística; ¿Qué 'ajuste' queremos probar?

12

Me refiero a la pregunta y sus respuestas: ¿Cómo comparar la capacidad predictiva (probabilidad) de los modelos desarrollados a partir de la regresión logística? por @Clark Chong y respuestas / comentarios por @Frank Harrell. ya la pregunta Grados de libertad de en la prueba de Hosmer-Lemeshowχ2 y los comentarios.

He leído el artículo DW Hosmer, T. Hosmer, S. Le Cessie, S. Lemeshow, "Una comparación de las pruebas de bondad de ajuste para el modelo de regresión logística", Estadísticas en Medicina, vol. 16, 965-980 (1997) .

Después de leer, estaba confundido porque la pregunta a la que me refería pide explícitamente la "capacidad predictiva (de probabilidad)", que en mi opinión no es lo mismo a lo que apuntan las pruebas de bondad de ajuste en el artículo supra:

Como la mayoría de nosotros sabemos, la regresión logística supone un enlace en forma de S entre las variables explicativas y la probabilidad de éxito, la forma funcional para la forma de S es

P(y=1|xi)=11+e(β0+iβixi)

Sin pretender que no haya fallas en la prueba de Hosmer-Lemeshow, creo que tenemos que distinguir entre las pruebas para la (a) 'capacidad predictiva (probabilidad) ' y (b) ' bondad de ajuste '.

El objetivo del primero es probar si las probabilidades están bien predichas, mientras que las pruebas de bondad de ajuste prueban si la función en forma de S anterior es la función "correcta". Más formalmente:

  1. las pruebas para 'pruebas de habilidad predictiva de probabilidad' tienen un que indica que el modelo predice bien las probabilidades de éxito;H0
  2. mientras que para las pruebas de bondad de ajuste es (ver Hosmer et al.) que la forma funcional en forma de S supra es la correcta. Hosmer y col. realizan simulaciones donde encuentran el poder de detectar dos tipos de desviaciones del valor nulo, a saber, que la función de enlace es incorrecta o que el exponente en el denominador no es lineal.H0

Obviamente, si la función anterior tiene la forma funcional 'correcta' (por lo tanto, si las pruebas concluyen que podemos aceptar para la prueba de bondad de ajuste), entonces las probabilidades predichas estarán bien, ...H0

Primer comentario

... sin embargo, aceptar es una conclusión débil como se explica en ¿Qué sigue si no rechazamos la hipótesis nula? .H0

Primera pregunta

La pregunta / observación más importante que tengo es que si se rechaza la bondad de ajuste , entonces la conclusión de la prueba es que la forma funcional no era la `` correcta '', sin embargo, esto implica que las probabilidades son no está bien predicho?H0

Segunda pregunta

Además, quiero señalar las conclusiones de Hosmer et. Alabama; (Cito del resumen):

'' Un examen del desempeño de las pruebas cuando el modelo correcto tiene un término cuadrático pero un modelo que contiene solo el término lineal ha sido ajustado muestra que el chi-cuadrado de Pearson, la suma de cuadrados no ponderada, el decil de Hosmer-Lemeshow de riesgo, la suma de cuadrados residuales suavizados y la prueba de puntuación de Stukel tienen una potencia superior al 50% para detectar desviaciones moderadas de la linealidad cuando el tamaño de la muestra es 100 y tienen una potencia superior al 90% para estas mismas alternativas para muestras de tamaño 500 Todas las pruebas no tenían poder cuando el modelo correcto tenía una interacción entre una covariable dicotómica y continua, pero solo se ajustaba el modelo de covariable continua. El poder para detectar un enlace especificado incorrectamente era deficiente para muestras de tamaño 100. Para muestras de tamaño 500 Stukel ' La prueba de puntaje tuvo la mejor potencia, pero solo superó el 50 por ciento para detectar una función de enlace asimétrico. El poder de la prueba de suma de cuadrados no ponderada para detectar una función de enlace especificada incorrectamente fue ligeramente menor que la prueba de puntaje de Stukel ''

¿Puedo concluir a partir de esto qué prueba tiene más potencia o que Hosmer-Lemeshow tiene menos potencia (para detectar estas anomalías específicas)?

Segunda observación

El artículo de Hosmer et. Alabama. que mencioné anteriormente, calcule (simule) la potencia para detectar anomalías específicas (la potencia solo se puede calcular si se especifica un ). En mi opinión, esto no implica que estos resultados se puedan generalizar a '' todas las alternativas posibles ''?H 1H1H1

Comunidad
fuente

Respuestas:

5

La "bondad de ajuste" a veces se usa en un sentido como lo contrario de la especificación errónea del modelo evidente, "falta de ajuste"; Y a veces, en otro sentido, como el rendimiento predictivo de un modelo: qué tan bien coinciden las predicciones con las observaciones. La prueba de Hosmer-Lemeshow es para determinar la bondad del ajuste en el primer sentido, y aunque la evidencia de falta de ajuste sugiere un rendimiento predictivo (GoF en el segundo sentido, medido por las puntuaciones o Brier de Nagelkerke ) podría mejorarse, está ninguno de los más sabios en cuanto a cómo o en qué medida hasta que pruebe mejoras específicas (generalmente mediante la inclusión de términos de interacción, o una spline o una base polinómica para representar predictores continuos para permitir una relación curvilínea con el logit; a veces cambiando el enlace).R2

Las pruebas de bondad de ajuste tienen la intención de tener un poder razonable contra una variedad de alternativas, en lugar de un alto poder contra una alternativa específica; Por lo tanto, las personas que comparan el poder de las diferentes pruebas tienden a adoptar el enfoque pragmático de elegir algunas alternativas que se consideran de particular interés para los usuarios potenciales (ver, por ejemplo, Stephens (1974), "Estadísticas de EDF para la bondad del ajuste" y algunas comparaciones ", JASA, 69 , 347 ). No se puede concluir que una prueba es más poderosa que otra contra todas las alternativas posibles porque es más poderosa contra algunas.

Scortchi - Restablece a Monica
fuente
1
En algunos casos se puede demostrar que una prueba es "uniformemente más poderosa", lo que significa que es más poderosa para todas las alternativas posibles (cfr Teorema de Karlin / Rubin). Pero tiene razón en que esto es solo en casos excepcionales y ciertamente no en el entorno de la prueba de Hosmer-Lemeshow.
44
En general, "bondad de ajuste" se le da demasiado énfasis en mi humilde opinión. Una mejor alternativa es hacer que el modelo se ajuste por adelantado. Esto se hace mediante el uso de splines de regresión para relajar los supuestos de linealidad e incluir interacciones que tendrían sentido.
Frank Harrell
2
@fcoppens: ¡Buen punto! Solo obtiene pruebas UMP restringiendo severamente las alternativas consideradas a los valores de un parámetro escalar, e incluso entonces no siempre. Incluso considerar si una prueba es inadmisible (hay al menos otra prueba que tiene mayor poder en todas las alternativas) requeriría restringir demasiado las alternativas para una prueba GOF de propósito general.
Scortchi - Restablece a Monica