Comprender los parámetros dentro de la distribución binomial negativa

37

Estaba tratando de ajustar mis datos en varios modelos y descubrí que la fitdistrfunción de la biblioteca MASSde Rme da Negative Binomialel mejor ajuste. Ahora desde la página wiki , la definición se da como:

La distribución NegBin (r, p) describe la probabilidad de k fallas y r éxitos en k + r Bernoulli (p) ensayos con éxito en el último ensayo.

Usar Rpara realizar el ajuste del modelo me da dos parámetros meany dispersion parameter. No entiendo cómo interpretarlos porque no puedo ver estos parámetros en la página wiki. Todo lo que puedo ver es la siguiente fórmula:

Fórmula de distribución binomial negativa

donde kes el número de observaciones y r=0...n. Ahora, ¿cómo relaciono estos con los parámetros dados por R? El archivo de ayuda tampoco proporciona mucha información.

Además, solo para decir algunas palabras sobre mi experimento: en un experimento social que estaba llevando a cabo, estaba tratando de contar la cantidad de personas con las que cada usuario contactó en un período de 10 días. El tamaño de la población fue de 100 para el experimento.

Ahora, si el modelo se ajusta al binomio negativo, puedo decir ciegamente que sigue esa distribución, pero realmente quiero entender el significado intuitivo detrás de esto. ¿Qué significa decir que el número de personas contactadas por mis sujetos de prueba sigue una distribución binomial negativa? ¿Puede alguien ayudarme a aclarar esto?

Leyenda
fuente

Respuestas:

42

Debería mirar más abajo el artículo de Wikipedia sobre el NB , donde dice "mezcla gamma-Poisson". Mientras que la definición que usted cita (que yo llamo la definición de "lanzamiento de monedas" ya que generalmente la defino para clases como "suponga que desea lanzar una moneda hasta que obtengakheads ") es más fácil de derivar y tiene más sentido en un contexto de probabilidad introductoria o estadística matemática, la mezcla gamma-Poisson es (en mi experiencia) una forma mucho más útil en general para pensar sobre la distribución en contextos aplicados. (En particular, esta definición permite valores no enteros del parámetro de dispersión / tamaño.) En este contexto, su parámetro de dispersión describe la distribución de una distribución Gamma hipotética que subyace a sus datos y describe la variación no observada entre individuos en su nivel intrínseco de contacto. es el parámetro de forma del Gamma, y ​​puede ser útil pensar en esto para saber que el coeficiente de variación de una distribución Gamma con el parámetro de forma es ; comoθ1/ /θθ vuelve grande, la variabilidad latente desaparece y la distribución se acerca al Poisson.

Ben Bolker
fuente
77
hmm Me pregunto por qué el voto negativo?
Ben Bolker
La formulación NB (media, dispersión) también se describe en la sección de formulaciones alternativas ( en.wikipedia.org/wiki/… ) ahora en esa página wiki.
mt1022
10

Como les mencioné en mi publicación anterior, estoy trabajando para entender cómo adaptar una distribución para contar los datos también. Aquí está entre lo que he aprendido:

Cuando la varianza es mayor que la media, la sobredispersión es evidente y, por lo tanto, la distribución binomial negativa es probablemente apropiada. Si la varianza y la media son iguales, se sugiere la distribución de Poisson, y cuando la varianza es menor que la media, se recomienda la distribución binomial.

Con los datos de conteo en los que está trabajando, está utilizando la parametrización "ecológica" de la función binomial negativa en R. La Sección 4.5.1.3 (Página 165) del siguiente libro de libre acceso habla de esto específicamente (en el contexto de R, ¡nada menos!) y, espero, podría abordar algunas de sus preguntas:

http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf

Si llega a la conclusión de que sus datos están truncados a cero (es decir, la probabilidad de 0 observaciones es 0), entonces puede que desee comprobar el sabor truncado a cero del NBD que está en el paquete R VGAM .

Aquí hay un ejemplo de su aplicación:

library(VGAM)

someCounts = data.frame(n = c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16),
                     freq = c(182479,76986,44859,24315,16487,15308,5736,
                              2843,1370,1115,1127,49,100,490,106,2))

fit = vglm(n ~ 1, posnegbinomial, control = vglm.control(maxit = 1000), weights=freq,
           data=someCounts)

Coef(fit)

pdf2 = dposnegbin(x=with(someCounts, n), munb=0.8344248, size=0.4086801)

print( with(someCounts, cbind(n, freq, fitted=pdf2*sum(freq))), dig=9)

Espero que esto sea útil.

Jeff Tyzzer
fuente
Página 165 en el libro.
SmallChess