Estimación de la probabilidad en un proceso de Bernoulli mediante muestreo hasta 10 fallas: ¿está sesgado?

15

Supongamos que tenemos un proceso de Bernoulli con probabilidad de falla q (que será pequeña, digamos, q0.01 ) de la cual tomamos muestras hasta encontrar 10 fallas. Nosotros por lo tanto estimar la probabilidad de fracaso como q : = 10 / N , donde N es el número de muestras.q^:=10/NN

Pregunta : ¿Es q una estimación sesgada de q ? Y, si es así, ¿hay alguna manera de corregirlo?q^q

Me preocupa que insistir en que la última muestra sea un error sesga la estimación.

Becky
fuente
55
Las respuestas actuales no llegan a proporcionar el estimador imparcial de varianza mínima . Consulte la sección de muestreo y estimación puntual del artículo de Wikipedia sobre la distribución binomial negativa . (101)/(N1)
A. Webb

Respuestas:

10

Es cierto que q es una estimación sesgada de q en el sentido de que E ( q ) q , pero que no necesariamente debe dejar que esto te impida. Este escenario exacto puede usarse como una crítica contra la idea de que siempre debemos usar estimadores imparciales, porque aquí el sesgo es más un artefacto del experimento particular que estamos haciendo. Los datos se ven exactamente como se verían si hubiéramos elegido el número de muestras por adelantado, entonces, ¿por qué deberían cambiar nuestras inferencias?q^qE(q^)q

Curiosamente, si recolectara datos de esta manera y luego anotara la función de probabilidad bajo los modelos binomial (tamaño de muestra fijo) y binomial negativo, descubriría que los dos son proporcionales entre sí. Esto significa que q es sólo la estimación de máxima verosimilitud ordinario bajo el modelo binomial negativo, que por supuesto es una estimación perfectamente razonable.q^

dsaxton
fuente
¡Excelente! Parece que (para mis propósitos) este sesgo no es un problema.
becky
9

No es insistir en que la última muestra es un error que sesga la estimación, está tomando el recíproco de N

Entonces en tu ejemplo pero E[10E[N10]=1q. Esto está cerca de comparar la media aritmética con la media armónicaE[10N]q

La mala noticia es que el sesgo puede aumentar a medida que hace más pequeño, aunque no mucho una vez que q ya es pequeño. La buena noticia es que el sesgo disminuye a medida que aumenta el número requerido de fallas. Parece que si necesita f fallas, entonces el sesgo está limitado anteriormente por un factor multiplicativo de fqqf paraqpequeño; no desea este enfoque cuando se detiene después del primer fracaso ff1q

Al detenerse después de fallas, con q = 0.01 obtendrá E [ N10q=0.01pero E[10E[N10]=100, mientras que conq=0.001obtendráE[NE[10N]0.011097q=0.001pero E[10E[N10]=1000. Un sesgo de aproximadamente un10E[10N]0.001111 factor multiplicativo 109

Enrique
fuente
7

Como complemento a la respuesta de dsaxton, aquí hay algunas simulaciones en R que muestran la distribución de muestreo de q cuando k = 10 y q 0 = 0,02 :q^k=10q0=0.02

n_replications <- 10000
k <- 10
failure_prob <- 0.02
n_trials <- k + rnbinom(n_replications, size=k, prob=failure_prob)
all(n_trials >= k)  # Sanity check, cannot have 10 failures in < 10 trials

estimated_failure_probability <- k / n_trials
histogram_breaks <- seq(0, max(estimated_failure_probability) + 0.001, 0.001)
## png("estimated_failure_probability.png")
hist(estimated_failure_probability, breaks=histogram_breaks)
abline(v=failure_prob, col="red", lty=2, lwd=2)  # True failure probability in red
## dev.off()

mean(estimated_failure_probability)  # Around 0.022
sd(estimated_failure_probability)
t.test(x=estimated_failure_probability, mu=failure_prob)  # Interval around [0.0220, 0.0223]

Parece que , que es un sesgo más bien pequeño en relación con la variabilidad en q .E[q^]0.022q^

histograma de q_hat

Adrian
fuente
1
Eso es realmente útil. A ese nivel, no vale la pena preocuparme.
becky
2
Puede escribir esta simulación de manera más concisa como10+rnbinom(10000,10,0.02)
A. Webb
@ A.Webb gracias, ese es un buen punto. Realmente estaba reinventando la rueda. Necesito leer? Rnbinom y luego editaré mi publicación
Adrian
1
Eso seria 10/(10+rnbinom(10000,10,0.02)). La parametrización es en términos de número de éxitos / fracasos en lugar del número total de pruebas, por lo que deberá agregar k = 10. Tenga en cuenta que el estimador imparcial sería 9/(9+rnbinom(10000,10,0.02)), uno menos en numerador y denominador.
A. Webb