Permítanos especular la situación simple donde no hay información covariable en sus datos. Digamos que solo tienes observaciones .Y1,Y2,…,Yn∈R
Si está utilizando una distribución normal para modelar sus datos, probablemente escribiría eso
Yi∼N(μ,σ2) ,
y luego trate de estimar y , tal vez a través de la estimación de máxima verosimilitud.μσ
Pero supongamos que sus datos son datos de conteo y, por lo tanto, normalmente no se distribuyen. Ni siquiera es continuo este caso, por lo que puede usar la distribución de Poisson en su lugar:
Yi∼Poisson(λ) .
Sin embargo, solo tiene un parámetro aquí. El parámetro único determina tanto la media como la varianza por y . Esto también sucede cuando usa Bernoulli o distribución binomial. Pero puede tener una variación mayor o menor en sus datos, posiblemente porque las observaciones no son realmente id o la distribución que eligió no fue lo suficientemente realista.λE[Yi]=λVar[Yi]=λ
Por lo tanto, las personas agregan parámetros de dispersión para obtener un grado adicional de libertad al modelar la media y la varianza simultáneamente. Creo que cualquier libro de texto sobre GLM le dará una explicación matemática más detallada sobre lo que es, pero creo que la motivación es bastante simple como esta.