¿Qué es la distribución cuasi-binomial (en el contexto de GLM)?

30

Espero que alguien pueda proporcionar una visión general intuitiva de qué es la distribución cuasibinomial y qué hace. Estoy particularmente interesado en estos puntos:

  1. Cómo el cuasibinomio difiere de la distribución binomial.

  2. Cuando la variable de respuesta es una proporción (los valores de ejemplo incluyen 0.23, 0.11, 0.78, 0.98), un modelo cuasibinomial se ejecutará en R pero no un modelo binomial.

  3. ¿Por qué los modelos cuasibinomiales deben usarse cuando una variable de respuesta VERDADERO / FALSO está sobredispersada?

luciano
fuente

Respuestas:

20
  1. La diferencia entre la distribución binomial y cuasi-binomial se puede ver en sus funciones de densidad de probabilidad (pdf), que caracterizan estas distribuciones.

    Pdf binomial:

    P(X=k)=(nk)pk(1p)nk

    Pdf cuasi binomial:

    PAGS(X=k)=(nortek)pags(pags+kϕ)k-1(1-pags-kϕ)norte-k

    La distribución cuasi-binomial, si bien es similar a la distribución binomial, tiene un parámetro adicional (limitado a | ϕ |min { p / n , (ϕ ) que intenta describir una varianza adicional en los datos que no puede explicarse solo por una distribución binomial.|ϕ|min{p/n,(1p)/n}

    (Tenga en cuenta que la media de la distribución cuasi-binomial es en lugar dep ensí.)pagsyo=0 0nortenorte!ϕyo(norte-k)!pags

  2. No estoy seguro de esto, ¿tal vez la función glm en R agrega pesos en el modo cuasibinomial para dar cuenta de esto?

  3. El propósito del parámetro adicional es estimar la varianza adicional en los datos. Cada modelo lineal generalizado (GLM) hace una suposición distributiva para el resultado / respuesta y maximiza la probabilidad de los datos basados ​​en esta distribución. Es una elección que hace el analista, y si siente que necesita tener en cuenta una mayor variación en sus datos, puede elegir la perturbación cuasi-binomial para modelar la respuesta para su glm. Una excelente manera de probar si necesitamos ajustar un modelo cuasi-binomial en lugar de un binomio es ajustar un modelo cuasi-binomial, y probar para ver si el parámetro ϕ es 0.ϕϕ

Alejandro Ochoa
fuente
2
Excelente Alejandro, ¿cómo puedo probar si el parámetro ϕ es 0?
Juanchi
2
Tenga en cuenta que Rcon glm.fit, binomialy quasibinomialson exactamente iguales, excepto que quasibinomial(1) elimina la verificación de enteros y (2) devuelve un AIC de NA. Vea esta respuesta para más detalles.
miguelmorin
-1 Este tipo de distribución "cuasi-binomial" parece no tener ninguna relación con las probabilidades cuasi-binomiales en el contexto de glms, por lo que es difícil ver por qué recibió tantos votos positivos.
Jarle Tufto
14

ϕ

Hay una distribución que se ajusta a dicha especificación (la obvia: un binomio a escala), pero ese no es necesariamente el objetivo cuando se ajusta un modelo cuasi-binomial; Si está ajustando a datos que todavía son 0-1, no se puede escalar binomial.

ϕ

Cuando la variable de respuesta es una proporción (los valores de ejemplo incluyen 0.23, 0.11, 078, 0.98), un modelo cuasibinomial se ejecutará en R pero un modelo binomial no

Según recuerdo, se puede ejecutar un modelo binomial en R con proporciones *, pero debe tenerlo configurado correctamente.

* Hay tres formas separadas de dar datos binomiales a R que conozco. Estoy bastante seguro de que es uno.

Glen_b -Reinstate a Monica
fuente
¿Cómo se relaciona esto con la estimación cuasilikelihood?
tim.farkas
2
+1 (¡pero me encantaría ver una respuesta más completa!). Las tres formas de configurar GLM binomial con proporciones son probablemente las siguientes: stats.stackexchange.com/a/26779/28666 ? Un enlace puede ser útil. Además, ¿cómo se relaciona lo que dijiste acerca de que "cuasibinomial" no es realmente una distribución con la segunda respuesta en este hilo?
ameba dice Reinstate Monica
1
@amoeba, puede escribir una distribución para él, como se indicó en mi respuesta (un binomio escalado) pero eso no puede ser una distribución para datos de conteo (cuasibinomial no está en todos los enteros a menos que el parámetro de dispersión sea 1) ni para datos continuos ( ¡es discreto!) La gente generalmente lo usa para los datos de recuento debido a su estructura de varianza (pero en cuyo caso no existe tal distribución en la familia exponencial)
Glen_b: restablece Mónica el