Tengo un modelo lineal generalizado que adopta una distribución gaussiana y una función de enlace de registro. Después de ajustar el modelo, verifico los residuos: gráfico QQ, residuos frente a valores pronosticados, histograma de residuos (reconociendo que se necesita la debida precaución). Todo se ve bien. Esto parece sugerir (para mí) que la elección de una distribución gaussiana fue bastante razonable. O, al menos, que los residuos son consistentes con la distribución que utilicé en mi modelo.
P1 : ¿Sería ir demasiado lejos decir que valida mi elección de distribución?
Elegí una función de enlace de registro porque mi variable de respuesta siempre es positiva, pero me gustaría algún tipo de confirmación de que fuera una buena opción.
P2 : ¿Hay alguna prueba, como verificar los residuos para la elección de distribución, que pueda respaldar mi elección de la función de enlace? (Elegir una función de enlace me parece un poco arbitrario, ya que las únicas pautas que puedo encontrar son bastante vagas y manuales, presumiblemente por una buena razón).
Respuestas:
Esta es una variante de la pregunta frecuente con respecto a si puede afirmar la hipótesis nula. En su caso, lo nulo sería que los residuos son gaussianos, y la inspección visual de sus gráficos (qq-gráficos, histogramas, etc.) constituye la 'prueba'. (Para una visión general del tema de afirmar el nulo, puede ser útil leer mi respuesta aquí: ¿Por qué los estadísticos dicen que un resultado no significativo significa "no se puede rechazar el nulo" en lugar de aceptar la hipótesis nula? ) En su caso específico, puede decir que las gráficas muestran que sus residuos son consistentes con su suposición de normalidad, pero no "validan" la suposición.
Puede ajustar su modelo utilizando diferentes funciones de enlace y compararlas,
pero no hay una prueba de una sola función de enlace aislada(esto es evidentemente incorrecto, consulte la respuesta de @ Glen_b ). En mi respuesta a Diferencia entre modelos logit y probit (que puede valer la pena leer, aunque no es lo mismo), sostengo que las funciones de enlace deben elegirse en función de:fuente
Depende de lo que quieras decir con 'validar' exactamente, pero yo diría 'sí, eso va demasiado lejos' de la misma manera que no puedes decir realmente "se demuestra que la nula es verdadera", (especialmente con puntos nulos, pero al menos en un sentido más general). Realmente solo puedes decir "bueno, no tenemos pruebas sólidas de que esté mal". Pero, en cualquier caso, no esperamos que nuestros modelos sean perfectos, son modelos . Lo que importa, como dijo Box & Draper, es " qué tan equivocados tienen que estar para no ser útiles ".
Cualquiera de estas dos oraciones anteriores:
describa con mucha más precisión lo que indican sus diagnósticos, no que un modelo gaussiano con enlace de registro fuera correcto , sino que fuera razonable o coherente con los datos.
Si sabe que debe ser positivo, entonces su media debe ser positiva. Es sensato elegir un modelo que sea al menos consistente con eso. No sé si es una buena opción (bien podría haber opciones mucho mejores), pero es algo razonable; Bien podría ser mi punto de partida. [Sin embargo, si la variable en sí misma es necesariamente positiva, mi primer pensamiento tenderá a ser Gamma con log-link, en lugar de Gaussian. "Necesariamente positivo" sugiere asimetría y varianza que cambian con la media.]
Parece que no quiere decir 'prueba' como en 'prueba de hipótesis formal' sino más bien como 'verificación de diagnóstico'.
En cualquier caso, la respuesta es sí, los hay.
Una prueba de hipótesis formal es la prueba de bondad de enlace de Pregibon [1].
Esto se basa en integrar la función de enlace en una familia Box-Cox para hacer una prueba de hipótesis del parámetro Box-Cox.
Ver también la breve discusión de la prueba de Pregibon en Breslow (1996) [2] ( ver p. 14 ).
(hacia lo que me inclinaría para esta evaluación), o tal vez observando las desviaciones de la linealidad en los residuos parciales, con un gráfico para cada predictor (véase, por ejemplo, Hardin y Hilbe, Modelos lineales generalizados y extensiones, segunda edición, sección 4.5 .4 p54, para la definición),
En los casos en que los datos admiten la transformación por la función de enlace, podría buscar la linealidad de la misma manera que con la regresión lineal (aunque puede haber dejado asimetría y posiblemente heterocedasticidad).
En el caso de los predictores categóricos, la elección de la función de enlace es más una cuestión de conveniencia o de interpretación, el ajuste debe ser el mismo (por lo que no es necesario evaluarlo).
También podría basar un diagnóstico en el enfoque de Pregibon.
Estos no forman una lista exhaustiva; Puede encontrar otros diagnósticos discutidos.
[Dicho esto, estoy de acuerdo con la evaluación de Gung de que la elección de la función de enlace debe basarse inicialmente en cosas como consideraciones teóricas, cuando sea posible].
Vea también parte de la discusión en esta publicación , que es al menos parcialmente relevante.
[1]: Pregibon, D. (1980),
"Pruebas de bondad de enlace para modelos lineales generalizados",
Journal of the Royal Statistical Society. Serie C (Estadística Aplicada) ,
vol. 29, núm. 1, págs. 15-23.
[2]: Breslow NE (1996),
"Modelos lineales generalizados: comprobación de supuestos y fortalecimiento de conclusiones",
Statistica Applicata 8 , 23-41.
pdf
fuente