La gamma tiene una propiedad compartida por lognormal; a saber, que cuando el parámetro de forma se mantiene constante mientras se varía el parámetro de escala (como se hace generalmente cuando se usa cualquiera de los modelos), la varianza es proporcional al cuadrado medio (coeficiente de variación constante).
Algo aproximado a esto ocurre con bastante frecuencia con datos financieros, o de hecho, con muchos otros tipos de datos.
Como resultado, a menudo es adecuado para datos que son continuos, positivos, sesgados a la derecha y donde la varianza es casi constante en la escala logarítmica, aunque hay una serie de otras opciones bien conocidas (y a menudo bastante disponibles) con esas propiedades.
Además, es común ajustar un enlace de registro con el gamma GLM (es relativamente más raro usar el enlace natural). Lo que lo hace ligeramente diferente de ajustar un modelo lineal normal a los registros de los datos es que en la escala logarítmica la gamma se deja sesgada en grados variables mientras que la normal (el registro de un lognormal) es simétrica. Esto lo hace (la gamma) útil en una variedad de situaciones.
He visto usos prácticos para GLM gamma discutidos (con ejemplos de datos reales) en (fuera de mi cabeza) de Jong & Heller y Frees , así como numerosos documentos; También he visto aplicaciones en otras áreas. Ah, y si recuerdo bien, MASS de Venables y Ripley lo usa en el ausentismo escolar (los datos de quine; Editar: resulta que en realidad está en Complementos de estadísticas para MASS , ver p11, la 14a página del pdf, tiene un enlace de registro pero hay un pequeño cambio de DV). Uh, y McCullagh y Nelder hicieron un ejemplo de coagulación de la sangre, aunque tal vez pudo haber sido un vínculo natural.
Luego está el libro de Faraway donde hizo un ejemplo de seguro de automóvil y un ejemplo de datos de fabricación de semiconductores.
Hay algunas ventajas y algunas desventajas para elegir cualquiera de las dos opciones. Desde estos días, ambos son fáciles de colocar; generalmente se trata de elegir lo que es más adecuado.
Está lejos de ser la única opción; por ejemplo, también hay GLM gaussianos inversos, que tienen una cola más sesgada / más pesada (e incluso más heterocedastica) que gamma o lognormal.
En cuanto a los inconvenientes, es más difícil hacer intervalos de predicción. Algunas pantallas de diagnóstico son más difíciles de interpretar. Calcular las expectativas en la escala del predictor lineal (generalmente la escala logarítmica) es más difícil que para el modelo lognormal equivalente. Las pruebas de hipótesis y los intervalos son generalmente asintóticos. Estos son a menudo problemas relativamente menores.
Tiene algunas ventajas sobre la regresión logarítmica de enlace de registro (tomar registros y ajustar un modelo de regresión lineal ordinario); uno es que la predicción mala es fácil.
Buena pregunta. De hecho, por qué las personas no usan más los modelos lineales generalizados (GLM) también es una buena pregunta.
Nota de advertencia: Algunas personas usan GLM para el modelo lineal general, no lo que está en mente aquí.
Depende de dónde mires. Por ejemplo, las distribuciones gamma han sido populares en varias de las ciencias ambientales durante algunas décadas, por lo que modelar con variables predictoras también es una extensión natural. Hay muchos ejemplos en hidrología y geomorfología, por nombrar algunos campos en los que me he desviado.
Es difícil precisar cuándo usarlo más allá de una respuesta vacía de cuándo funciona mejor. Teniendo en cuenta los datos positivos asimétricos, a menudo me encontraré probando modelos gamma y lognormales (en el enlace de registro de contexto GLM, familia normal o gaussiana) y eligiendo cuál funciona mejor.
El modelado gamma siguió siendo bastante difícil de hacer hasta hace relativamente poco, ciertamente en comparación con tomar registros y aplicar regresiones lineales, sin escribir mucho código usted mismo. Incluso ahora, supongo que no es igualmente fácil en todos los principales entornos de software estadístico.
Al explicar lo que se usa y lo que no se usa, a pesar de los méritos y deméritos, creo que siempre se reduce exactamente al tipo de factores que identifica: lo que se enseña, lo que hay en la literatura que la gente lee, de lo que la gente escucha hablar en trabajo y en conferencias. Por lo tanto, necesita una especie de sociología de la ciencia aficionada para explicar. La mayoría de las personas parecen seguir caminos rectos y estrechos dentro de sus propios campos. En términos generales, cuanto mayor es la literatura interna en cualquier campo sobre técnicas de modelado, las personas menos inclinadas en ese campo parecen intentar algo diferente.
fuente
La regresión gamma está en el GLM y, por lo tanto, puede obtener muchas cantidades útiles para fines de diagnóstico, como residuos de desviación, apalancamientos, distancia de Cook, etc. Quizás no sean tan agradables como las cantidades correspondientes para los datos transformados logarítmicamente.
Una cosa que evita la regresión gamma en comparación con el lognormal es el sesgo de transformación. La desigualdad de Jensen implica que las predicciones de la regresión lognormal estarán sesgadas sistemáticamente porque modela datos transformados en lugar del valor esperado transformado.
Además, la regresión gamma (u otros modelos para datos no negativos) puede hacer frente a una matriz de datos más amplia que la normal debido al hecho de que puede tener un modo en 0, como el que tiene con la distribución exponencial, que está en la gama familia, lo que es imposible para el lognormal.
He leído sugerencias de que usar la probabilidad de Poisson como cuasi-probabilidad es más estable. Son conjugados el uno del otro. El cuasi-Poisson también tiene el beneficio sustancial de poder hacer frente a los valores exactos de 0, que afectan tanto a la gamma como, especialmente, a la lognormal.
fuente
En mi opinión, se supone que los errores se encuentran en una familia de distribuciones gamma, con las mismas formas y con las escalas cambiando de acuerdo con la fórmula relacionada.
Pero es difícil hacer un diagnóstico modelo. Tenga en cuenta que la gráfica QQ simple no es adecuada aquí, porque tiene aproximadamente la misma distribución, mientras que la nuestra es una familia de distribuciones con diferentes variaciones.
Ingenuamente, la gráfica de residuos se puede usar para ver que tienen escalas diferentes pero la misma forma, generalmente con colas largas.
En mi experiencia, el gamma GLM puede probarse para algunos problemas distribuidos de cola larga, y se usa ampliamente en los sectores de seguros y medio ambiente, etc. Pero las suposiciones son difíciles de probar y el modelo no funciona bien por lo general, por lo que diferentes documentos argumentan que usan otras distribuciones familiares con el mismo problema, como el gaussiano inverso, etc. En la práctica, parece que tales elecciones dependen del juicio experto con la experiencia industrial. Esto limita el uso de la gamma GLM.
fuente