Pregunta
La varianza de una distribución binomial negativa (NB) es siempre mayor que su media. Cuando la media de una muestra es mayor que su varianza, el intento de ajustar los parámetros de un NB con la máxima probabilidad o con la estimación de momento fallará (no hay solución con parámetros finitos).
Sin embargo, es posible que una muestra tomada de una distribución NB tenga una media mayor que la varianza. Aquí hay un ejemplo reproducible en R.
set.seed(167)
x = rnbinom(100, size=3.2, prob=.8);
mean(x) # 0.82
var(x) # 0.8157576
Existe una probabilidad distinta de cero de que el NB produzca una muestra para la cual no se puedan estimar los parámetros (por métodos de máxima probabilidad y momento).
- ¿Se pueden dar estimaciones decentes para esta muestra?
- ¿Qué dice la teoría de la estimación cuando los estimadores no están definidos para todas las muestras?
Sobre la respuesta
Las respuestas de @MarkRobinson y @Yves me hicieron darme cuenta de que la parametrización es el problema principal. La densidad de probabilidad del NB generalmente se escribe como
o como P(X=k)=Γ(r+k)
Bajo la primera parametrización, la estimación de máxima verosimilitud es siempre que la varianza de la muestra sea menor que la media, por lo que no se puede decir nada útil sobre p . Debajo del segundo, es ( ∞ , ˉ x ) , por lo que podemos dar una estimación razonable de m . Finalmente, @MarkRobinson muestra que podemos resolver el problema de los valores infinitos usando r lugar der.
En conclusión, no hay nada fundamentalmente malo en este problema de estimación, excepto que no siempre se pueden dar interpretaciones significativas de y p para cada muestra. Para ser justos, las ideas están presentes en ambas respuestas. Elegí el de @MarkRobinson como el correcto para los complementos que me da.
fuente
Respuestas:
Básicamente, para su muestra, la estimación del parámetro de tamaño está en el límite del espacio del parámetro. También se podría considerar una reparametrización como d = tamaño / (tamaño + 1); cuando size = 0, d = 0, cuando el tamaño tiende al infinito, d se aproxima a 1. Resulta que, para la configuración de parámetros que ha proporcionado, las estimaciones de tamaño del infinito (d cerca de 1) ocurren aproximadamente el 13% del tiempo durante Estimaciones de probabilidad de perfil ajustado (APL) de Cox-Reid, que es una alternativa a las estimaciones de MLE para NB (se muestra un ejemplo aquí) . Las estimaciones del parámetro medio (o 'prob') parecen estar bien (vea la figura, las líneas azules son los valores verdaderos, el punto rojo es la estimación para su semilla = 167 muestra). Más detalles sobre la teoría APL están aquí .
Entonces, yo diría que 1 .: se pueden obtener estimaciones de parámetros decentes ... tamaño = infinito o dispersión = 0 es una estimación razonable dada la muestra. Considere un espacio de parámetro diferente y las estimaciones serán finitas.
fuente
Las propiedades de ML son para un gran tamaño de muestra: en condiciones de regularidad, se muestra que existe una estimación de ML, que es única y tiende al parámetro verdadero. Sin embargo, para un tamaño de muestra finito dado, la estimación de ML puede no existir en el dominio, por ejemplo, porque el máximo se alcanza en el límite. También puede existir en un dominio que es más grande que el utilizado para la maximización.
En aras de la invariancia mediante la re-parametrización, creo que los parámetros infinitos pueden tener sentido en algunos casos.
fuente