¿Deben usarse correcciones de grados de libertad para la inferencia en los parámetros GLM?

11

Esta pregunta está inspirada en la respuesta de Martijn aquí .

var[X]=E[X]E[1X]var[X]=E[X]

A diferencia de la regresión lineal cuando los residuos se distribuyen normalmente, no se conoce la distribución de muestreo exacta y finita de estos coeficientes, es una combinación posiblemente complicada de los resultados y las covariables. Además, utilizando la estimación de GLM de la media , que se utilizará como una estimación de complemento para la varianza del resultado.

Sin embargo, al igual que la regresión lineal, los coeficientes tienen una distribución normal asintótica, por lo que en la inferencia de muestra finita podemos aproximar su distribución de muestreo con la curva normal.

Mi pregunta es: ¿ganamos algo usando la aproximación de distribución T a la distribución de muestreo de los coeficientes en muestras finitas? Por un lado, conocemos la varianza pero no sabemos la distribución exacta, por lo que una aproximación T parece la elección incorrecta cuando un estimador de arranque o de navaja podría explicar adecuadamente estas discrepancias. Por otro lado, quizás el ligero conservadurismo de la distribución T simplemente se prefiere en la práctica.

AdamO
fuente
1
buena pregunta. Es posible que desee ver las correcciones de Bartlett .
Ben Bolker
1
Creo que esta pregunta está mal planteada, cuando usas MLE o QMLE solo tienes una estimación e inferencia justificada asintóticamente. preguntando si la suposición A o B es mejor en entornos finitos no puede ser respondida, siempre hervirá a lo mundano "depende de los datos y las suposiciones que esté dispuesto a hacer". Personalmente, me gusta el bootstrapping, y lo uso siempre que puedo, pero no está más mal que usar una prueba estándar basada en z o t: no le permite escapar del pequeño problema de datos, por lo que todavía está haciendo suposiciones (solo diferentes )
Repmat

Respuestas:

3

Respuesta corta: Aún no es una respuesta completa, pero puede interesarle las siguientes distribuciones relacionadas con la pregunta vinculada: compara la prueba z (como también la usa glm) y la prueba t

    layout(matrix(1:2,1,byrow=TRUE))

    # trying all 100 possible outcomes if the true value is p=0.7
    px <- dbinom(0:100,100,0.7)
    p_model = rep(0,101)
    p_model2 = rep(0,101)
    for (i in 0:100) {
      xi = c(rep(1,i),rep(0,100-i))
      model = glm(xi ~ 1, offset=rep(qlogis(0.7),100), family="binomial")
      p_model[i+1] = 1-summary(model)$coefficients[4]
      model2 <- glm(xi ~ 1, family = "binomial")
      coef <- summary(model2)$coefficients
      p_model2[i+1] = 1-2*pt(-abs((qlogis(0.7)-coef[1])/coef[2]),99,ncp=0)
    }


    # plotting cumulative distribution of outcomes z-test
    outcomes <- p_model[order(p_model)]
    cdf <- cumsum(px[order(p_model)])
    plot(1-outcomes,1-cdf, 
         ylab="cumulative probability", 
         xlab= "calculated glm p-value",
         xlim=c(10^-4,1),ylim=c(10^-4,1),col=2,cex=0.5,log="xy")
    lines(c(0.00001,1),c(0.00001,1))
    for (i in 1:100) {
      lines(1-c(outcomes[i],outcomes[i+1]),1-c(cdf[i+1],cdf[i+1]),col=2)
    #  lines(1-c(outcomes[i],outcomes[i]),1-c(cdf[i],cdf[i+1]),col=2)
    }

    title("probability for rejection with z-test \n as function of set alpha level")


    # plotting cumulative distribution of outcomes t-test
    outcomes <- p_model2[order(p_model2)]
    cdf <- cumsum(px[order(p_model2)])
    plot(1-outcomes,1-cdf, 
         ylab="cumulative probability", 
         xlab= "calculated glm p-value",
         xlim=c(10^-4,1),ylim=c(10^-4,1),col=2,cex=0.5,log="xy")
    lines(c(0.00001,1),c(0.00001,1))
    for (i in 1:100) {
      lines(1-c(outcomes[i],outcomes[i+1]),1-c(cdf[i+1],cdf[i+1]),col=2)
      #  lines(1-c(outcomes[i],outcomes[i]),1-c(cdf[i],cdf[i+1]),col=2)
    }

    title("probability for rejection with t-test \n as function of set alpha level")
    [![p-test vs t-test][1]][1]

Y solo hay una pequeña diferencia. Y también la prueba z es en realidad mejor (pero esto podría deberse a que tanto la prueba t como la prueba z son "incorrectas" y posiblemente el error de la prueba z compensa este error).

ingrese la descripción de la imagen aquí

Respuesta larga: ...

Sexto empírico
fuente