Intervalo de confianza alrededor de la estimación binomial de 0 o 1

36

¿Cuál es la mejor técnica para calcular un intervalo de confianza de un experimento binomial, si su estimación es que (o similarmente ) y el tamaño de la muestra es relativamente pequeño, por ejemplo ?p = 1 n = 25pags=0 0pags=1norte=25

Kasper
fuente
¿Qué tan cerca a cero es p ? ¿Es cero a menudo, o del orden de 0.001, o 0.01, o ...? ¿Y cuántos datos tienes? pags^
jbowman
Generalmente tenemos más de 800 ensayos. Por lo general, esperamos 0 a 0,1 para el ppags^
AI2.0
Use el intervalo Clopper-Pearson que vinculó. El principio general: primero intente el intervalo Clopper-Pearson. Si la computadora no puede obtener la respuesta, pruebe el método de aproximación, como la aproximación normal. Según la velocidad actual de la computadora, no creo que necesitemos una aproximación en la mayoría de las situaciones.
user158565
Para obtener solo el límite superior del intervalo de confianza con (1- nivel de confianza, solo usaremos B (1− α ; x + 1, n − x) donde x es el número de éxitos (o fracasos), n es el tamaño de la muestra. En Python, solo usamos . Si esto es VERDADERO, ¿podemos concluir que estamos seguros de 1− α de que el límite superior está limitado por el valor que calculamos ?ααscipy.stats.beta.ppf(1−$\alpha$;x+1,n−x) αscipy.stats.beta.ppf(1−$\alpha$;x+1,n−x)
AI2.0
1
Con 800 ensayos, la aproximación normal habitual funcionará razonablemente bien hasta aproximadamente (mis simulaciones indicaron una cobertura real del 94.5% de un intervalo de confianza del 95%). En 1000 ensayos y p = 0.01 , la cobertura real fue del 92.7% (todo basado en 100,000 repeticiones). Por lo tanto, esto es solo un problema para una p muy baja , dado su recuento de prueba. pags=0,015pags=0,01pags
jbowman

Respuestas:

53

No utilice la aproximación normal.

Mucho se ha escrito sobre este problema. Un consejo general es nunca usar la aproximación normal (es decir, el intervalo de confianza asintótico / de Wald), ya que tiene propiedades de cobertura terribles. Código R para ilustrar esto:

library(binom)
p = seq(0,1,.001)
coverage = binom.coverage(p, 25, method="asymptotic")$coverage
plot(p, coverage, type="l")
binom.confint(0,25)
abline(h=.95, col="red")

Probabilidades de cobertura para intervalos de confianza asintóticos para una proporción binomial.

Para probabilidades de éxito pequeñas, puede pedir un intervalo de confianza del 95%, ¡pero en realidad obtener, digamos, un intervalo de confianza del 10%!

Recomendaciones

Entonces, ¿ qué debemos usar? Creo que las recomendaciones actuales son las que figuran en la estimación de intervalo de papel para una proporción binomial de Brown, Cai y DasGupta en Statistical Science 2001, vol. 16, no. 2, páginas 101–133. Los autores examinaron varios métodos para calcular los intervalos de confianza y llegaron a la siguiente conclusión.

[Recomendamos] el intervalo de Wilson o el intervalo anterior de Jeffreys de cola igual para n pequeña y el intervalo sugerido en Agresti y Coull para n más grande .

El intervalo de Wilson también se llama a veces intervalo de puntuación , ya que se basa en invertir una prueba de puntuación.

Calculando los intervalos

Para calcular estos intervalos de confianza, puede usar esta calculadora en línea o la binom.confint()función en el binompaquete en R. Por ejemplo, para 0 éxitos en 25 ensayos, el código R sería:

> binom.confint(0, 25, method=c("wilson", "bayes", "agresti-coull"),
  type="central")
         method x  n  mean  lower upper
1 agresti-coull 0 25 0.000 -0.024 0.158
2         bayes 0 25 0.019  0.000 0.073
3        wilson 0 25 0.000  0.000 0.133

Aquí bayesestá el intervalo de Jeffreys. (El argumento type="central"es necesario para obtener el intervalo de igual cola ).

Tenga en cuenta que debe decidir cuál de los tres métodos desea utilizar antes de calcular el intervalo. Mirar los tres y seleccionar el más corto naturalmente le dará una probabilidad de cobertura demasiado pequeña.

Una respuesta rápida y aproximada.

Como nota final, si observa exactamente cero éxitos en sus n pruebas y solo desea un intervalo de confianza aproximado muy rápido, puede usar la regla de tres . Simplemente divide el número 3 por n . En el ejemplo anterior, n es 25, entonces el límite superior es 3/25 = 0.12 (el límite inferior es, por supuesto, 0).

Karl Ove Hufthammer
fuente
Muchas gracias por tu respuesta. Imagine este ejemplo de la vida real: un arquitecto tiene que probar en un rascacielos si todos los paneles de aislamiento en los techos están instalados correctamente. Abre 25 paneles de techo en una selección aleatoria de pisos y encuentra sobre todo el aislamiento de estos paneles de techo. Entonces, ¿podemos concluir que la probabilidad real de tener un panel de aislamiento es con un 95% de certeza entre IC [0,867 a 1] según el intervalo de puntuación de Wilson?
Kasper
2
No diría que puede concluirlo con '95% de certeza '(Google para' interpretación correcta de los intervalos de confianza '). Además, esto se basa en la suposición de ensayos independientes con probabilidades de éxito iguales, que pueden no ser realistas aquí. Quizás los últimos paneles instalados tenían un mayor riesgo de ser instalados incorrectamente (la persona que los instaló estaba cansada / aburrida). O tal vez los primeros fueron, ya que la persona tenía menos experiencia entonces. De todos modos, si se le dijo al arquitecto que probara si todos los paneles están instalados correctamente, ¡debe hacer su trabajo, no solo probar una muestra!
Karl Ove Hufthammer
55
bayesusa el uniforme anterior (en lugar del de Jeffrey) cuando ambos parámetros de forma son 1. Envié un correo electrónico al mantenedor del paquete binom por curiosidad sobre las (des) ventajas de Jeffrey vs. uniforme anterior y me dijo que una nueva versión usará El uniforme anterior como predeterminado. Así que no se pregunte si los resultados varían ligeramente en el futuro.
cbeleites apoya a Monica el
3
Esta es una excelente respuesta. Transmite toda la información clave que puede leer en los documentos sobre el tema, pero de manera muy concisa y clara. Si pudiera votar dos veces, lo haría.
SigmaX
66
El binconfmétodo Hmisctambién calcula estos intervalos. El valor predeterminado es el método Wilson.
SigmaX
0

pags±zα/ /2pags(1-pags)/ /norteπ0 0π0 0π0 0

El |pags-π0 0El |pags(1-pags)/ /norte=0 0
(1+z0 02/ /norte)π0 02+(-2pags-z0 02/ /norte)π0 0+pags2=0 0

Jay Schyler Raadt
fuente
1
π0 0
π0 0pagsnorte
Eso es agresti.
Nick Cox
@NickCox es un trabajo diferente
Jay Schyler Raadt
1
Alan Agresti ha publicado varios textos. Supongo que te estás refiriendo a Una Introducción al Análisis de Datos Categóricos (2a edición 2007; 3a edición programada para publicación en octubre de 2018 y puede tener una fecha 2019) de John Wiley.
Nick Cox