Estaba leyendo un libro de texto de estadísticas de nivel de entrada. En el capítulo sobre la estimación de máxima verosimilitud de la proporción de éxito en datos con distribución binomial, dio una fórmula para calcular un intervalo de confianza y luego mencionó con indiferencia
Considere su probabilidad de cobertura real, es decir, la probabilidad de que el método produzca un intervalo que capture el valor del parámetro verdadero. Esto puede ser bastante menor que el valor nominal.
Y continúa con una sugerencia para construir un "intervalo de confianza" alternativo, que presumiblemente contiene la probabilidad de cobertura real.
Me encontré con la idea de la probabilidad de cobertura nominal y real por primera vez. Al abrirme paso a través de viejas preguntas aquí, creo que lo entendí: hay dos conceptos diferentes que llamamos probabilidad, el primero es qué tan probable es que un evento que aún no ha sucedido producirá un resultado dado, y el segundo es cuán probable es que la suposición de un agente de observación sobre el resultado de un evento ya sucedido sea cierta. También parecía que los intervalos de confianza solo miden el primer tipo de probabilidad, y que algo llamado "intervalos creíbles" mide el segundo tipo de probabilidad. Supuse sumariamente que los intervalos de confianza son los que calculan la "probabilidad de cobertura nominal" y los intervalos creíbles son los que cubren la "probabilidad de cobertura real".
Pero tal vez he malinterpretado el libro (no está del todo claro si los diferentes métodos de cálculo que ofrece son para un intervalo de confianza y un intervalo creíble, o para dos tipos diferentes de intervalo de confianza), o las otras fuentes a las que solía llegar Mi comprensión actual. Especialmente un comentario que recibí sobre otra pregunta,
Intervalos de confianza para frecuentistas, creíbles para bayesianos
me hizo dudar de mis conclusiones, ya que el libro no describía un método bayesiano en ese capítulo.
Por lo tanto, aclare si mi comprensión es correcta o si he cometido un error lógico en el camino.
Respuestas:
En general, la probabilidad de cobertura real nunca será igual a la probabilidad nominal cuando trabaje con una distribución discreta.
El intervalo de confianza se define como una función de los datos. Si está trabajando con la distribución binomial, solo hay muchos resultados posibles ( para ser precisos), por lo que solo hay muchos intervalos de confianza posibles. Dado que el parámetro es continuo, es bastante fácil ver que la probabilidad de cobertura (que es una función de ) no puede ser mejor que aproximadamente el 95% (o lo que sea).p pn + 1 pag pag
En general, es cierto que los métodos basados en el CLT tendrán probabilidades de cobertura por debajo del valor nominal, pero otros métodos pueden ser más conservadores.
fuente
La cobertura nominal solo se logra cuando los valores de los parámetros verdaderos coinciden con los límites superiores obtenibles.
[Acabo de volver a leer su pregunta y noté que el autor dice que el valor real puede ser menor que la probabilidad de cobertura nominal. Así que supongo que están hablando de un método aproximado para calcular el intervalo de confianza, aunque lo que dije anteriormente todavía funciona. El gráfico podría sugerir informar un nivel de confianza promedio de aproximadamente pero, ¿promediar los valores de un parámetro desconocido?]98%
† Exacto en el sentido de que la cobertura real nunca es menor que la cobertura nominal para cualquier valor de , e igual para algunos valores de - @ El sentido de Unwisdom, no @ Stephane.ππ π
‡ Los intervalos con límites superior e inferior se usan más comúnmente, por supuesto; pero un poco más complicado de explicar, y solo hay un intervalo exacto para considerar con solo un límite superior. (Ver Blaker (2000), "Curvas de confianza e intervalos de confianza exactos mejorados para distribuciones discretas", Canadian Journal of Statistics , 28 , 4 y las referencias).
fuente
Creo que la diferencia es en realidad sobre el uso de aproximaciones hechas al calcular los intervalos de confianza. Por ejemplo, si usamos el CI bastante estándar de
Podemos llamar a esto un "intervalo de confianza del 95%". Sin embargo, suele ocurrir que aquí se hacen varias aproximaciones. Si no hacemos las aproximaciones, podemos calcular la cobertura real. Una situación típica es subestimar el error estándar. Entonces, los intervalos son demasiado estrechos para capturar el valor verdadero con un 95% de probabilidad. Solo podrían capturar el valor verdadero con una probabilidad del 85%. La probabilidad de "cobertura real" podría calcularse utilizando una simulación de Monte Carlo de algún tipo (por ejemplo, generar conjuntos de datos de muestra utilizando un valor verdadero elegido, luego calcular el IC del 95% para cada uno y encontrar que realmente contenía el valor verdadero).8501000 850
fuente