Parámetro de dispersión en salida GLM

11

He ejecutado un glm en R, y cerca de la parte inferior de la summary()salida, dice

(Dispersion parameter for gaussian family taken to be 28.35031)

Hice algunas búsquedas en Google y aprendí que el parámetro de dispersión se usa para ajustarse a los errores estándar. Espero que alguien pueda proporcionar más detalles sobre cuál es el parámetro de dispersión y cómo debe interpretarse.

luciano
fuente

Respuestas:

9

Una forma de explorar esto es intentar ajustar el mismo modelo usando diferentes herramientas, aquí hay un ejemplo:

> fit1 <- lm( Sepal.Length ~ ., data=iris )
> fit2 <- glm( Sepal.Length ~ ., data=iris )
> summary(fit1)

Call:
lm(formula = Sepal.Length ~ ., data = iris)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.79424 -0.21874  0.00899  0.20255  0.73103 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.3068 on 144 degrees of freedom
Multiple R-squared: 0.8673,     Adjusted R-squared: 0.8627 
F-statistic: 188.3 on 5 and 144 DF,  p-value: < 2.2e-16 

> summary(fit2)

Call:
glm(formula = Sepal.Length ~ ., data = iris)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-0.79424  -0.21874   0.00899   0.20255   0.73103  

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

(Dispersion parameter for gaussian family taken to be 0.09414226)

    Null deviance: 102.168  on 149  degrees of freedom
Residual deviance:  13.556  on 144  degrees of freedom
AIC: 79.116

Number of Fisher Scoring iterations: 2

> sqrt( 0.09414226 )
[1] 0.3068261

Entonces puede ver que el error estándar residual del modelo lineal es solo la raíz cuadrada de la dispersión desde el glm, en otras palabras, la dispersión (para los modelos gaussianos) es la misma que el error cuadrado medio.

Greg Snow
fuente
4

Permítanos especular la situación simple donde no hay información covariable en sus datos. Digamos que solo tienes observaciones .Y1,Y2,,YnR

Si está utilizando una distribución normal para modelar sus datos, probablemente escribiría eso

YiN(μ,σ2) ,

y luego trate de estimar y , tal vez a través de la estimación de máxima verosimilitud.μσ

Pero supongamos que sus datos son datos de conteo y, por lo tanto, normalmente no se distribuyen. Ni siquiera es continuo este caso, por lo que puede usar la distribución de Poisson en su lugar:

YiPoisson(λ) .

Sin embargo, solo tiene un parámetro aquí. El parámetro único determina tanto la media como la varianza por y . Esto también sucede cuando usa Bernoulli o distribución binomial. Pero puede tener una variación mayor o menor en sus datos, posiblemente porque las observaciones no son realmente id o la distribución que eligió no fue lo suficientemente realista.λE[Yi]=λVar[Yi]=λ

Por lo tanto, las personas agregan parámetros de dispersión para obtener un grado adicional de libertad al modelar la media y la varianza simultáneamente. Creo que cualquier libro de texto sobre GLM le dará una explicación matemática más detallada sobre lo que es, pero creo que la motivación es bastante simple como esta.

d_ijk_stra
fuente