¿Cuándo usar gamma GLM?

88

La distribución gamma puede adoptar una gama bastante amplia de formas, y dado el vínculo entre la media y la varianza a través de sus dos parámetros, parece adecuada para tratar la heterocedasticidad en datos no negativos, de una manera que los OLS transformados logarítmicamente pueden No lo haga sin WLS o algún tipo de estimador de VCV coherente con heterocedasticidad.

Lo usaría más para el modelado de datos no negativos de rutina, pero no conozco a nadie más que lo use, no lo he aprendido en un aula formal, y la literatura que leo nunca lo usa. Cada vez que busco en Google algo así como "usos prácticos de gamma GLM", propongo usarlo para los tiempos de espera entre eventos de Poisson. OKAY. Pero eso parece restrictivo y no puede ser su único uso.

Ingenuamente, parece que el gamma GLM es un medio relativamente ligero de modelar datos no negativos, dada la flexibilidad de gamma. Por supuesto, debe verificar los gráficos QQ y los gráficos residuales como cualquier modelo. ¿Pero hay algún inconveniente serio que me estoy perdiendo? ¿Más allá de la comunicación con las personas que "simplemente ejecutan OLS"?

genérico_usuario
fuente

Respuestas:

57

La gamma tiene una propiedad compartida por lognormal; a saber, que cuando el parámetro de forma se mantiene constante mientras se varía el parámetro de escala (como se hace generalmente cuando se usa cualquiera de los modelos), la varianza es proporcional al cuadrado medio (coeficiente de variación constante).

Algo aproximado a esto ocurre con bastante frecuencia con datos financieros, o de hecho, con muchos otros tipos de datos.

Como resultado, a menudo es adecuado para datos que son continuos, positivos, sesgados a la derecha y donde la varianza es casi constante en la escala logarítmica, aunque hay una serie de otras opciones bien conocidas (y a menudo bastante disponibles) con esas propiedades.

Además, es común ajustar un enlace de registro con el gamma GLM (es relativamente más raro usar el enlace natural). Lo que lo hace ligeramente diferente de ajustar un modelo lineal normal a los registros de los datos es que en la escala logarítmica la gamma se deja sesgada en grados variables mientras que la normal (el registro de un lognormal) es simétrica. Esto lo hace (la gamma) útil en una variedad de situaciones.

He visto usos prácticos para GLM gamma discutidos (con ejemplos de datos reales) en (fuera de mi cabeza) de Jong & Heller y Frees , así como numerosos documentos; También he visto aplicaciones en otras áreas. Ah, y si recuerdo bien, MASS de Venables y Ripley lo usa en el ausentismo escolar (los datos de quine; Editar: resulta que en realidad está en Complementos de estadísticas para MASS , ver p11, la 14a página del pdf, tiene un enlace de registro pero hay un pequeño cambio de DV). Uh, y McCullagh y Nelder hicieron un ejemplo de coagulación de la sangre, aunque tal vez pudo haber sido un vínculo natural.

Luego está el libro de Faraway donde hizo un ejemplo de seguro de automóvil y un ejemplo de datos de fabricación de semiconductores.

Hay algunas ventajas y algunas desventajas para elegir cualquiera de las dos opciones. Desde estos días, ambos son fáciles de colocar; generalmente se trata de elegir lo que es más adecuado.

Está lejos de ser la única opción; por ejemplo, también hay GLM gaussianos inversos, que tienen una cola más sesgada / más pesada (e incluso más heterocedastica) que gamma o lognormal.

En cuanto a los inconvenientes, es más difícil hacer intervalos de predicción. Algunas pantallas de diagnóstico son más difíciles de interpretar. Calcular las expectativas en la escala del predictor lineal (generalmente la escala logarítmica) es más difícil que para el modelo lognormal equivalente. Las pruebas de hipótesis y los intervalos son generalmente asintóticos. Estos son a menudo problemas relativamente menores.

Tiene algunas ventajas sobre la regresión logarítmica de enlace de registro (tomar registros y ajustar un modelo de regresión lineal ordinario); uno es que la predicción mala es fácil.

Glen_b
fuente
3
¿Debería ser "Gamma" o "gamma"? Sabemos que no se nombra para una persona. He visto minúsculas "g" con mucha más frecuencia. Claramente, la distribución lleva el nombre de la función, que se remonta al siglo XVIII.
Nick Cox
2
La notación es la única razón que he visto para ese uso. Con las distribuciones en general, las mayúsculas generalmente hacen eco de los apellidos, por ejemplo, Poisson o Gauss, como ya sabes. Γ
Nick Cox
@NickCox Lo cambié como usted sugiere, y arreglé "Gaussian inverso" mientras estaba en ello.
Glen_b
1
@Gleb_b: ¿Sigue utilizando el enlace de registro con la familia gaussiana inversa?
Dimitriy V. Masterov
@ DimitriyV.Masterov Se usa menos, por lo que es más difícil generalizar. Por lo que he visto, es bastante común usar un enlace de registro con gaussiano inverso, pero otros enlaces pueden ser adecuados en algunas situaciones, como un enlace inverso.
Glen_b
28

Buena pregunta. De hecho, por qué las personas no usan más los modelos lineales generalizados (GLM) también es una buena pregunta.

Nota de advertencia: Algunas personas usan GLM para el modelo lineal general, no lo que está en mente aquí.

  • Depende de dónde mires. Por ejemplo, las distribuciones gamma han sido populares en varias de las ciencias ambientales durante algunas décadas, por lo que modelar con variables predictoras también es una extensión natural. Hay muchos ejemplos en hidrología y geomorfología, por nombrar algunos campos en los que me he desviado.

  • Es difícil precisar cuándo usarlo más allá de una respuesta vacía de cuándo funciona mejor. Teniendo en cuenta los datos positivos asimétricos, a menudo me encontraré probando modelos gamma y lognormales (en el enlace de registro de contexto GLM, familia normal o gaussiana) y eligiendo cuál funciona mejor.

  • El modelado gamma siguió siendo bastante difícil de hacer hasta hace relativamente poco, ciertamente en comparación con tomar registros y aplicar regresiones lineales, sin escribir mucho código usted mismo. Incluso ahora, supongo que no es igualmente fácil en todos los principales entornos de software estadístico.

  • Al explicar lo que se usa y lo que no se usa, a pesar de los méritos y deméritos, creo que siempre se reduce exactamente al tipo de factores que identifica: lo que se enseña, lo que hay en la literatura que la gente lee, de lo que la gente escucha hablar en trabajo y en conferencias. Por lo tanto, necesita una especie de sociología de la ciencia aficionada para explicar. La mayoría de las personas parecen seguir caminos rectos y estrechos dentro de sus propios campos. En términos generales, cuanto mayor es la literatura interna en cualquier campo sobre técnicas de modelado, las personas menos inclinadas en ese campo parecen intentar algo diferente.

Nick Cox
fuente
1
¿Cómo se determina cuál funciona mejor?
Dimitriy V. Masterov
77
Miro las probabilidades, los cuadrados R (a pesar de lo que la gente dice), los intervalos de confianza en torno a las estimaciones de los parámetros, las gráficas de lo observado frente a lo ajustado, lo residual frente a lo ajustado, etc. Si hubiera ciencia que favoreciera un modelo sobre otro, eso también pesaría, pero en Mi experiencia con la ciencia no está tan bien formada. ¿De qué otra manera podría hacerse?
Nick Cox
@NickCox ¿Qué debemos tener en cuenta cuando el análisis observado vs ajustado, los residuos versus ajustado y la gráfica qq normal? Entiendo que esto puede diferir entre los modelos. ¿Podría dar un ejemplo para gamma, poisson y binomio negativo? Gracias
tatami
@tatami Esa es una pregunta completamente nueva, o más, creo. Si lo preguntas, verás quién muerde. Nunca pensé que un modelo gamma y un modelo binomial negativo fueran rivales en ningún proyecto, pero eso podría ser un fracaso de la imaginación o la experiencia.
Nick Cox
13

La regresión gamma está en el GLM y, por lo tanto, puede obtener muchas cantidades útiles para fines de diagnóstico, como residuos de desviación, apalancamientos, distancia de Cook, etc. Quizás no sean tan agradables como las cantidades correspondientes para los datos transformados logarítmicamente.

Una cosa que evita la regresión gamma en comparación con el lognormal es el sesgo de transformación. La desigualdad de Jensen implica que las predicciones de la regresión lognormal estarán sesgadas sistemáticamente porque modela datos transformados en lugar del valor esperado transformado.

Además, la regresión gamma (u otros modelos para datos no negativos) puede hacer frente a una matriz de datos más amplia que la normal debido al hecho de que puede tener un modo en 0, como el que tiene con la distribución exponencial, que está en la gama familia, lo que es imposible para el lognormal.

He leído sugerencias de que usar la probabilidad de Poisson como cuasi-probabilidad es más estable. Son conjugados el uno del otro. El cuasi-Poisson también tiene el beneficio sustancial de poder hacer frente a los valores exactos de 0, que afectan tanto a la gamma como, especialmente, a la lognormal.

Jay Verkuilen
fuente
11

En mi opinión, se supone que los errores se encuentran en una familia de distribuciones gamma, con las mismas formas y con las escalas cambiando de acuerdo con la fórmula relacionada.

Pero es difícil hacer un diagnóstico modelo. Tenga en cuenta que la gráfica QQ simple no es adecuada aquí, porque tiene aproximadamente la misma distribución, mientras que la nuestra es una familia de distribuciones con diferentes variaciones.

Ingenuamente, la gráfica de residuos se puede usar para ver que tienen escalas diferentes pero la misma forma, generalmente con colas largas.

En mi experiencia, el gamma GLM puede probarse para algunos problemas distribuidos de cola larga, y se usa ampliamente en los sectores de seguros y medio ambiente, etc. Pero las suposiciones son difíciles de probar y el modelo no funciona bien por lo general, por lo que diferentes documentos argumentan que usan otras distribuciones familiares con el mismo problema, como el gaussiano inverso, etc. En la práctica, parece que tales elecciones dependen del juicio experto con la experiencia industrial. Esto limita el uso de la gamma GLM.

Vincent
fuente