Estaba tratando de ajustar mis datos en varios modelos y descubrí que la fitdistr
función de la biblioteca MASS
de R
me da Negative Binomial
el mejor ajuste. Ahora desde la página wiki , la definición se da como:
La distribución NegBin (r, p) describe la probabilidad de k fallas y r éxitos en k + r Bernoulli (p) ensayos con éxito en el último ensayo.
Usar R
para realizar el ajuste del modelo me da dos parámetros mean
y dispersion parameter
. No entiendo cómo interpretarlos porque no puedo ver estos parámetros en la página wiki. Todo lo que puedo ver es la siguiente fórmula:
donde k
es el número de observaciones y r=0...n
. Ahora, ¿cómo relaciono estos con los parámetros dados por R
? El archivo de ayuda tampoco proporciona mucha información.
Además, solo para decir algunas palabras sobre mi experimento: en un experimento social que estaba llevando a cabo, estaba tratando de contar la cantidad de personas con las que cada usuario contactó en un período de 10 días. El tamaño de la población fue de 100 para el experimento.
Ahora, si el modelo se ajusta al binomio negativo, puedo decir ciegamente que sigue esa distribución, pero realmente quiero entender el significado intuitivo detrás de esto. ¿Qué significa decir que el número de personas contactadas por mis sujetos de prueba sigue una distribución binomial negativa? ¿Puede alguien ayudarme a aclarar esto?
fuente
Como les mencioné en mi publicación anterior, estoy trabajando para entender cómo adaptar una distribución para contar los datos también. Aquí está entre lo que he aprendido:
Cuando la varianza es mayor que la media, la sobredispersión es evidente y, por lo tanto, la distribución binomial negativa es probablemente apropiada. Si la varianza y la media son iguales, se sugiere la distribución de Poisson, y cuando la varianza es menor que la media, se recomienda la distribución binomial.
Con los datos de conteo en los que está trabajando, está utilizando la parametrización "ecológica" de la función binomial negativa en R. La Sección 4.5.1.3 (Página 165) del siguiente libro de libre acceso habla de esto específicamente (en el contexto de R, ¡nada menos!) y, espero, podría abordar algunas de sus preguntas:
http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf
Si llega a la conclusión de que sus datos están truncados a cero (es decir, la probabilidad de 0 observaciones es 0), entonces puede que desee comprobar el sabor truncado a cero del NBD que está en el paquete R VGAM .
Aquí hay un ejemplo de su aplicación:
Espero que esto sea útil.
fuente