GLM: verificar una elección de distribución y función de enlace

14

Tengo un modelo lineal generalizado que adopta una distribución gaussiana y una función de enlace de registro. Después de ajustar el modelo, verifico los residuos: gráfico QQ, residuos frente a valores pronosticados, histograma de residuos (reconociendo que se necesita la debida precaución). Todo se ve bien. Esto parece sugerir (para mí) que la elección de una distribución gaussiana fue bastante razonable. O, al menos, que los residuos son consistentes con la distribución que utilicé en mi modelo.

P1 : ¿Sería ir demasiado lejos decir que valida mi elección de distribución?

Elegí una función de enlace de registro porque mi variable de respuesta siempre es positiva, pero me gustaría algún tipo de confirmación de que fuera una buena opción.

P2 : ¿Hay alguna prueba, como verificar los residuos para la elección de distribución, que pueda respaldar mi elección de la función de enlace? (Elegir una función de enlace me parece un poco arbitrario, ya que las únicas pautas que puedo encontrar son bastante vagas y manuales, presumiblemente por una buena razón).

regression generalized-linear-model link-function Lyngbakr
fuente

2

Q1. Puede probar otras distribuciones y ver si funcionan mejor. Q2 Elegir un enlace de registro para garantizar predicciones positivas no me parece arbitrario. Es una justificación. Pero si podría obtener predicciones negativas con el enlace de identidad y los datos que tiene, a su vez podría verificarse. En pocas palabras: no puede ser claro que otros modelos no serían mejores hasta que los haya probado.

Nick Cox

1

Gracias por la respuesta, @Nick. Me preocupaba que simplemente se tratara de un caso de chupar y ver, como usted dice. No estoy tan preocupado de que sea necesariamente el mejor modelo, solo de que los supuestos puedan justificarse. Una idea con la que he estado jugando es trazar mis observaciones,

, contra la transformación exponencial del predictor lineal,

. Presumiblemente, cuanto más cerca estén los puntos de la línea 1: 1, mejor será la suposición de una función de enlace de registro. Además, podría cuantificar esto con un

para la línea 1: 1. (No soy un estadístico, así que no estoy seguro de cuán ridículas son estas críticas.)

Y

$Y$

\exp (η)

$\exp(\eta)$

R^{2}

$R^2$

Lyngbakr

2

R^{2}

$R^2$

13

Esta es una variante de la pregunta frecuente con respecto a si puede afirmar la hipótesis nula. En su caso, lo nulo sería que los residuos son gaussianos, y la inspección visual de sus gráficos (qq-gráficos, histogramas, etc.) constituye la 'prueba'. (Para una visión general del tema de afirmar el nulo, puede ser útil leer mi respuesta aquí: ¿Por qué los estadísticos dicen que un resultado no significativo significa "no se puede rechazar el nulo" en lugar de aceptar la hipótesis nula? ) En su caso específico, puede decir que las gráficas muestran que sus residuos son consistentes con su suposición de normalidad, pero no "validan" la suposición.
Puede ajustar su modelo utilizando diferentes funciones de enlace y compararlas, ~~pero no hay una prueba de una sola función de enlace aislada~~ (esto es evidentemente incorrecto, consulte la respuesta de @ Glen_b ). En mi respuesta a Diferencia entre modelos logit y probit (que puede valer la pena leer, aunque no es lo mismo), sostengo que las funciones de enlace deben elegirse en función de:
1. Conocimiento de la distribución de la respuesta.
2. Consideraciones teóricas, y
3. Ajuste empírico a los datos.
$Y$ $Y$ de volverse negativo, también induce una forma específica a la relación curvilínea. Un gráfico estándar de residuos versus valores ajustados (quizás con un ajuste de loess superpuesto) lo ayudará a identificar si la curvatura intrínseca en sus datos es una coincidencia razonable para la curvatura específica impuesta por el enlace de registro. Como mencioné, también puede probar cualquier otra transformación que cumpla con los criterios teóricos que desee y comparar los dos ajustes directamente.

gung - Restablece a Monica
fuente

16

¿Sería ir demasiado lejos decir que valida mi elección de distribución?

Depende de lo que quieras decir con 'validar' exactamente, pero yo diría 'sí, eso va demasiado lejos' de la misma manera que no puedes decir realmente "se demuestra que la nula es verdadera", (especialmente con puntos nulos, pero al menos en un sentido más general). Realmente solo puedes decir "bueno, no tenemos pruebas sólidas de que esté mal". Pero, en cualquier caso, no esperamos que nuestros modelos sean perfectos, son modelos . Lo que importa, como dijo Box & Draper, es " qué tan equivocados tienen que estar para no ser útiles ".

Cualquiera de estas dos oraciones anteriores:

Esto parece sugerir (para mí) que la elección de una distribución gaussiana fue bastante razonable. O, al menos, que los residuos son consistentes con la distribución que utilicé en mi modelo.

describa con mucha más precisión lo que indican sus diagnósticos, no que un modelo gaussiano con enlace de registro fuera correcto , sino que fuera razonable o coherente con los datos.

Elegí una función de enlace de registro porque mi variable de respuesta siempre es positiva, pero me gustaría algún tipo de confirmación de que fuera una buena opción.

Si sabe que debe ser positivo, entonces su media debe ser positiva. Es sensato elegir un modelo que sea al menos consistente con eso. No sé si es una buena opción (bien podría haber opciones mucho mejores), pero es algo razonable; Bien podría ser mi punto de partida. [Sin embargo, si la variable en sí misma es necesariamente positiva, mi primer pensamiento tenderá a ser Gamma con log-link, en lugar de Gaussian. "Necesariamente positivo" sugiere asimetría y varianza que cambian con la media.]

P2: ¿Hay alguna prueba, como verificar los residuos para la elección de distribución, que pueda respaldar mi elección de la función de enlace?

Parece que no quiere decir 'prueba' como en 'prueba de hipótesis formal' sino más bien como 'verificación de diagnóstico'.

En cualquier caso, la respuesta es sí, los hay.

Una prueba de hipótesis formal es la prueba de bondad de enlace de Pregibon [1].

Esto se basa en integrar la función de enlace en una familia Box-Cox para hacer una prueba de hipótesis del parámetro Box-Cox.

Ver también la breve discusión de la prueba de Pregibon en Breslow (1996) [2] ( ver p. 14 ).

$\eta=g(\mu)$ $x$ 's que están en el modelo, por lo que una evaluación básica podría considerar una gráfica de residuales contra los predictores. Por ejemplo,

$r^W_i=(y_i-\hat{\mu}_i)\left(\frac{\partial \eta}{\partial\mu}\right)$

(hacia lo que me inclinaría para esta evaluación), o tal vez observando las desviaciones de la linealidad en los residuos parciales, con un gráfico para cada predictor (véase, por ejemplo, Hardin y Hilbe, Modelos lineales generalizados y extensiones, segunda edición, sección 4.5 .4 p54, para la definición),

$\quad r^T_{ki}=(y_i-\hat{\mu}_i)\left(\frac{\partial \eta}{\partial\mu}\right)+x_{ik}\hat{\beta}_k$

$\qquad\:=r^W_i+x_{ik}\hat{\beta}_k$

En los casos en que los datos admiten la transformación por la función de enlace, podría buscar la linealidad de la misma manera que con la regresión lineal (aunque puede haber dejado asimetría y posiblemente heterocedasticidad).

En el caso de los predictores categóricos, la elección de la función de enlace es más una cuestión de conveniencia o de interpretación, el ajuste debe ser el mismo (por lo que no es necesario evaluarlo).

También podría basar un diagnóstico en el enfoque de Pregibon.

Estos no forman una lista exhaustiva; Puede encontrar otros diagnósticos discutidos.

[Dicho esto, estoy de acuerdo con la evaluación de Gung de que la elección de la función de enlace debe basarse inicialmente en cosas como consideraciones teóricas, cuando sea posible].

Vea también parte de la discusión en esta publicación , que es al menos parcialmente relevante.

[1]: Pregibon, D. (1980),
"Pruebas de bondad de enlace para modelos lineales generalizados",
Journal of the Royal Statistical Society. Serie C (Estadística Aplicada) ,
vol. 29, núm. 1, págs. 15-23.

[2]: Breslow NE (1996),
"Modelos lineales generalizados: comprobación de supuestos y fortalecimiento de conclusiones",
Statistica Applicata 8 , 23-41.
pdf

Glen_b -Reinstate a Monica
fuente

GLM: verificar una elección de distribución y función de enlace

Respuestas: