¿Cuántas distribuciones hay en el GLM?

11

Identifiqué varios lugares en los libros de texto donde el GLM se describe con 5 distribuciones (a saber, gamma, gaussiano, binomial, gaussiano inverso y Poisson). Esto también se ejemplifica en la función familiar en R.

Ocasionalmente me encuentro con referencias al GLM donde se incluyen distribuciones adicionales ( ejemplo ). ¿Alguien puede explicar por qué estos 5 son especiales o siempre están en el GLM pero a veces otros lo son?

Por lo que he aprendido hasta ahora, las distribuciones de GLM en la familia exponencial se ajustan a la forma: donde es el parámetro de dispersión y es el parámetro canónico.

f(y;θ,ϕ)=exp{yθb(θ)ϕ+c(y,ϕ)}
ϕθ

¿No se puede transformar ninguna distribución para que se ajuste al GLM?

timothy.s.lau
fuente
55
Claramente, la distribución uniforme no pertenece a la familia exponencial.
Zhanxiong
Buena pregunta. Por ejemplo, ¿qué pasa con lognormal?
Michael M
1
@ Zhanxiong, ¿no es uniforme un caso especial de distribución beta, y la distribución beta está en la familia exponencial?
shf8888
@ shf8888 AFAIK es solo una distribución de familia exponencial en el límite, cuando converge a la distribución gamma.
shadowtalker
@ Zhanxiong, gracias por aclarar! Disculpas, tienes razón, con límites desconocidos no es una distribución familiar exponencial.
shf8888

Respuestas:

4

Como indica, la calificación para usar una distribución en un GLM es que sea de la familia exponencial (nota: ¡esto no es lo mismo que la distribución exponencial! Aunque la distribución exponencial, como una distribución gamma, es en sí misma parte de la familia exponencial). Las cinco distribuciones que enumera son todas de esta familia y, lo que es más importante, son distribuciones MUY comunes, por lo que se utilizan como ejemplos y explicaciones.

Como señala Zhanxiong, la distribución uniforme (con límites desconocidos) es un ejemplo clásico de una distribución familiar no exponencial. shf8888 confunde la distribución uniforme general, en cualquier intervalo, con un Uniforme (0, 1). La distribución uniforme (0,1) es un caso especial de la distribución beta, que es una familia exponencial. Otras distribuciones familiares no exponenciales son los modelos mixtos y la distribución t.

Tiene la definición de la familia exponencial correcta, y el parámetro canónico es muy importante para usar GLM. Aún así, siempre me ha resultado más fácil entender la familia exponencial escribiéndola como:

f(x;θ)=a(θ)g(x)exp[b(θ)R(x)]

Hay una forma más general de escribir esto, con un vector lugar de un escalar ; pero el caso unidimensional explica mucho. Específicamente, debe poder factorizar la parte no exponencial de su densidad en dos funciones, una de parámetro desconocido pero no de datos observados y una de y no ; y lo mismo para la parte exponencial. Puede ser difícil ver cómo, por ejemplo, la distribución binomial se puede escribir de esta manera; pero con un poco de malabarismo algebraico, queda claro con el tiempo.θθθxxθ

Usamos la familia exponencial porque hace que muchas cosas sean mucho más fáciles: por ejemplo, encontrar estadísticas suficientes y probar hipótesis. En GLM, el parámetro canónico se usa a menudo para encontrar una función de enlace. Finalmente, una ilustración relacionada de por qué los estadísticos prefieren usar la familia exponencial en casi todos los casos está tratando de hacer una inferencia estadística clásica sobre, por ejemplo, una distribución Uniforme ( , ) donde tanto como son desconocidos . No es imposible, pero es mucho más complicado e involucrado que hacer lo mismo para distribuciones familiares exponenciales.θ1θ2θ1θ2

Enrique
fuente
La distribución beta con ambos parámetros desconocidos sigue siendo una familia exponencial (pero una familia exponencial de 2 parámetros). ¿Qué te hace pensar que no lo es? www2.stat.duke.edu/courses/Spring11/sta114/lec/… o wikipedia
DavidR
Gracias por señalar esto, he cambiado mi comentario ... ¡tienes razón! Realmente no sé lo que quise decir
Henry