Supongamos que tenemos un proceso de Bernoulli con probabilidad de falla (que será pequeña, digamos, ) de la cual tomamos muestras hasta encontrar fallas. Nosotros por lo tanto estimar la probabilidad de fracaso como q : = 10 / N , donde N es el número de muestras.
Pregunta : ¿Es q una estimación sesgada de q ? Y, si es así, ¿hay alguna manera de corregirlo?
Me preocupa que insistir en que la última muestra sea un error sesga la estimación.
Respuestas:
Es cierto que q es una estimación sesgada de q en el sentido de que E ( q ) ≠ q , pero que no necesariamente debe dejar que esto te impida. Este escenario exacto puede usarse como una crítica contra la idea de que siempre debemos usar estimadores imparciales, porque aquí el sesgo es más un artefacto del experimento particular que estamos haciendo. Los datos se ven exactamente como se verían si hubiéramos elegido el número de muestras por adelantado, entonces, ¿por qué deberían cambiar nuestras inferencias?q^ q E(q^)≠q
Curiosamente, si recolectara datos de esta manera y luego anotara la función de probabilidad bajo los modelos binomial (tamaño de muestra fijo) y binomial negativo, descubriría que los dos son proporcionales entre sí. Esto significa que q es sólo la estimación de máxima verosimilitud ordinario bajo el modelo binomial negativo, que por supuesto es una estimación perfectamente razonable.q^
fuente
No es insistir en que la última muestra es un error que sesga la estimación, está tomando el recíproco deN
Entonces en tu ejemplo pero E[10E[N10]=1q . Esto está cerca de comparar la media aritmética con la media armónicaE[10N]≠q
La mala noticia es que el sesgo puede aumentar a medida que hace más pequeño, aunque no mucho una vez que q ya es pequeño. La buena noticia es que el sesgo disminuye a medida que aumenta el número requerido de fallas. Parece que si necesita f fallas, entonces el sesgo está limitado anteriormente por un factor multiplicativo de fq q f paraqpequeño; no desea este enfoque cuando se detiene después del primer fracaso ff−1 q
Al detenerse después de fallas, con q = 0.01 obtendrá E [ N10 q=0.01 pero E[10E[N10]=100 , mientras que conq=0.001obtendráE[NE[10N]≈0.011097 q=0.001 pero E[10E[N10]=1000 . Un sesgo de aproximadamente un10E[10N]≈0.001111 factor multiplicativo 109
fuente
Como complemento a la respuesta de dsaxton, aquí hay algunas simulaciones en R que muestran la distribución de muestreo de q cuando k = 10 y q 0 = 0,02 :q^ k=10 q0=0.02
Parece que , que es un sesgo más bien pequeño en relación con la variabilidad en q .E[q^]≈0.022 q^
fuente
10+rnbinom(10000,10,0.02)
10/(10+rnbinom(10000,10,0.02))
. La parametrización es en términos de número de éxitos / fracasos en lugar del número total de pruebas, por lo que deberá agregar k = 10. Tenga en cuenta que el estimador imparcial sería9/(9+rnbinom(10000,10,0.02))
, uno menos en numerador y denominador.