dispersión en summary.glm ()

13

Realicé un glm.nb por

glm1<-glm.nb(x~factor(group))

siendo el grupo una categoría y x una variable métrica. Cuando intento obtener el resumen de los resultados, obtengo resultados ligeramente diferentes, dependiendo de si uso summary()o summary.glm. summary(glm1)me da

    ...
Coefficients:
                    Estimate Std. Error z value Pr(>|z|)  
    (Intercept)       0.1044     0.1519   0.687   0.4921  
    factor(gruppe)2   0.1580     0.2117   0.746   0.4555  
    factor(gruppe)3   0.3531     0.2085   1.693   0.0904 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

    (Dispersion parameter for Negative Binomial(0.7109) family taken to be 1)

mientras que summary.glm (glm1) me da

    ...
Coefficients:
                    Estimate Std. Error t value Pr(>|t|)  
    (Intercept)       0.1044     0.1481   0.705   0.4817  
    factor(gruppe)2   0.1580     0.2065   0.765   0.4447  
    factor(gruppe)3   0.3531     0.2033   1.737   0.0835 .
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

    (Dispersion parameter for Negative Binomial(0.7109) family taken to be 0.9509067)

Entiendo el significado del parámetro de dispersión, pero no de la línea.

(Dispersion parameter for Negative Binomial(0.7109) family taken to be 0.9509067).

En el manual dice, sería la dispersión estimada, pero parece ser una mala estimación, ya que 0.95 no está cerca de 0.7109, o ¿la dispersión estimada es algo diferente al parámetro de dispersión estimado? Supongo que tengo que establecer la dispersión en summary.nb(x, dispersion=)algo, pero no estoy seguro, si tengo que establecer la dispersión en 1 (lo que arrojará el mismo resultado summary()o si inserto una estimación del parámetro de dispersión, en este caso, ¿conduce a summary.nb(glm1, dispersion=0.7109)algo más? ¿O estoy bien con solo usar el summary(glm1)?

Renoir Pulitz
fuente
2
Use summary () cuando se envía al método S3 apropiado para la clase negbin. La dispersión, por supuesto, debe ser 1, lo que se estima es theta, que se denomina mejor parámetro de forma para evitar confusiones. Ver también stats.stackexchange.com/questions/27773/how-does-glm-nb-work/…
Momo

Respuestas:

13

summary.glm"negbin"summary.glmdispersionsummary.glm glmϕϕfamilyglm.nb"Negative Binomial(theta)"summary.glmen el modelo equipado por glm.nb, en el código

if (is.null(dispersion)) 
    dispersion <- if (object$family$family %in% c("poisson", 
        "binomial")) 
        1
    else if (df.r > 0) {
        est.disp <- TRUE
        if (any(object$weights == 0)) 
                warning("observations with zero weight not used for calculating dispersion")
            sum((object$weights * object$residuals^2)[object$weights > 
            0])/df.r
    }

"poisson""binomial"ϕsummary.negbin

ϕdispersion

En segundo lugar, no entiendes la salida. Cuando veas

Negative Binomial(0.7109)

θ^ϕ

ϕϕ=1summary.negbin

summary(glm1, dispersion = 0.9509)

negbinϕ

Restablece a Mónica - G. Simpson
fuente
55
+1 Buena explicación. Tengo dos pequeños comentarios: el parámetro de dispersión en binomial, Poisson y binomial negativo con parámetro de forma conocida es 1 por definición de la familia exponencial (no es una suposición). Cuando dice que se puede estimar y suministrar una dispersión diferente al método de resumen, entonces se debe tener cuidado porque uno se aventuraría en un cuasi territorio que tiene implicaciones especialmente para la probabilidad.
Momo
@Momo Bien dicho. Estaba dividido entre lo que usted dice y los detalles de la página de ayuda para las funciones respectivas.
Restablecer Monica - G. Simpson
2

θ1θ11θEYEμEμ

f(y)=Γ(θ+y)Γ(θ)y!μyθθ(μ+θ)θ+y

expectativa

EY=μ

y varianza

VarY=μ+μ2θ

Como señala @Momo, el parámetro de dispersión es otra cosa completamente diferente, que permitiría variar para hacer una estimación de cuasi-verosimilitud. Para el modelo binomial negativo y el modelo (verdadero) de Poisson, está correctamente fijado en un valor de uno.

Scortchi - Restablece a Monica
fuente