Intervalo de confianza alrededor de la estimación binomial de 0 o 1

¿Cuál es la mejor técnica para calcular un intervalo de confianza de un experimento binomial, si su estimación es que (o similarmente ) y el tamaño de la muestra es relativamente pequeño, por ejemplo ? $p=0$ $p=1$ $n=25$

confidence-interval binomial Kasper
fuente

¿Qué tan cerca a cero es

? ¿Es cero a menudo, o del orden de 0.001, o 0.01, o ...? ¿Y cuántos datos tienes?

\hat{p}

$\hat{p}$

jbowman

Generalmente tenemos más de 800 ensayos. Por lo general, esperamos 0 a 0,1 para el

\hat{p}

$\hat{p}$

AI2.0

Use el intervalo Clopper-Pearson que vinculó. El principio general: primero intente el intervalo Clopper-Pearson. Si la computadora no puede obtener la respuesta, pruebe el método de aproximación, como la aproximación normal. Según la velocidad actual de la computadora, no creo que necesitemos una aproximación en la mayoría de las situaciones.

user158565

Para obtener solo el límite superior del intervalo de confianza con (1-

nivel de confianza, solo usaremos B (1−

; x + 1, n − x) donde x es el número de éxitos (o fracasos), n es el tamaño de la muestra. En Python, solo usamos . Si esto es VERDADERO, ¿podemos concluir que estamos seguros de 1−

que el límite superior está limitado por el valor que calculamos ?

α

$\alpha$

α

$\alpha$ scipy.stats.beta.ppf(1−$\alpha$;x+1,n−x)

α

$\alpha$ scipy.stats.beta.ppf(1−$\alpha$;x+1,n−x)

AI2.0

Con 800 ensayos, la aproximación normal habitual funcionará razonablemente bien hasta aproximadamente

(mis simulaciones indicaron una cobertura real del 94.5% de un intervalo de confianza del 95%). En 1000 ensayos y

, la cobertura real fue del 92.7% (todo basado en 100,000 repeticiones). Por lo tanto, esto es solo un problema para una

muy baja , dado su recuento de prueba.

p = 0.015

$p=0.015$

p = 0.01

$p=0.01$

p

$p$

jbowman

Respuestas:

No utilice la aproximación normal.

Mucho se ha escrito sobre este problema. Un consejo general es nunca usar la aproximación normal (es decir, el intervalo de confianza asintótico / de Wald), ya que tiene propiedades de cobertura terribles. Código R para ilustrar esto:

library(binom)
p = seq(0,1,.001)
coverage = binom.coverage(p, 25, method="asymptotic")$coverage
plot(p, coverage, type="l")
binom.confint(0,25)
abline(h=.95, col="red")

Probabilidades de cobertura para intervalos de confianza asintóticos para una proporción binomial.

Para probabilidades de éxito pequeñas, puede pedir un intervalo de confianza del 95%, ¡pero en realidad obtener, digamos, un intervalo de confianza del 10%!

Recomendaciones

Entonces, ¿ qué debemos usar? Creo que las recomendaciones actuales son las que figuran en la estimación de intervalo de papel para una proporción binomial de Brown, Cai y DasGupta en Statistical Science 2001, vol. 16, no. 2, páginas 101–133. Los autores examinaron varios métodos para calcular los intervalos de confianza y llegaron a la siguiente conclusión.

[Recomendamos] el intervalo de Wilson o el intervalo anterior de Jeffreys de cola igual para n pequeña y el intervalo sugerido en Agresti y Coull para n más grande .

El intervalo de Wilson también se llama a veces intervalo de puntuación , ya que se basa en invertir una prueba de puntuación.

Calculando los intervalos

Para calcular estos intervalos de confianza, puede usar esta calculadora en línea o la binom.confint()función en el binompaquete en R. Por ejemplo, para 0 éxitos en 25 ensayos, el código R sería:

> binom.confint(0, 25, method=c("wilson", "bayes", "agresti-coull"),
  type="central")
         method x  n  mean  lower upper
1 agresti-coull 0 25 0.000 -0.024 0.158
2         bayes 0 25 0.019  0.000 0.073
3        wilson 0 25 0.000  0.000 0.133

Aquí bayesestá el intervalo de Jeffreys. (El argumento type="central"es necesario para obtener el intervalo de igual cola ).

Tenga en cuenta que debe decidir cuál de los tres métodos desea utilizar antes de calcular el intervalo. Mirar los tres y seleccionar el más corto naturalmente le dará una probabilidad de cobertura demasiado pequeña.

Una respuesta rápida y aproximada.

Como nota final, si observa exactamente cero éxitos en sus n pruebas y solo desea un intervalo de confianza aproximado muy rápido, puede usar la regla de tres . Simplemente divide el número 3 por n . En el ejemplo anterior, n es 25, entonces el límite superior es 3/25 = 0.12 (el límite inferior es, por supuesto, 0).

Karl Ove Hufthammer
fuente

Muchas gracias por tu respuesta. Imagine este ejemplo de la vida real: un arquitecto tiene que probar en un rascacielos si todos los paneles de aislamiento en los techos están instalados correctamente. Abre 25 paneles de techo en una selección aleatoria de pisos y encuentra sobre todo el aislamiento de estos paneles de techo. Entonces, ¿podemos concluir que la probabilidad real de tener un panel de aislamiento es con un 95% de certeza entre IC [0,867 a 1] según el intervalo de puntuación de Wilson?

Kasper

No diría que puede concluirlo con '95% de certeza '(Google para' interpretación correcta de los intervalos de confianza '). Además, esto se basa en la suposición de ensayos independientes con probabilidades de éxito iguales, que pueden no ser realistas aquí. Quizás los últimos paneles instalados tenían un mayor riesgo de ser instalados incorrectamente (la persona que los instaló estaba cansada / aburrida). O tal vez los primeros fueron, ya que la persona tenía menos experiencia entonces. De todos modos, si se le dijo al arquitecto que probara si todos los paneles están instalados correctamente, ¡debe hacer su trabajo, no solo probar una muestra!

Karl Ove Hufthammer

bayesusa el uniforme anterior (en lugar del de Jeffrey) cuando ambos parámetros de forma son 1. Envié un correo electrónico al mantenedor del paquete binom por curiosidad sobre las (des) ventajas de Jeffrey vs. uniforme anterior y me dijo que una nueva versión usará El uniforme anterior como predeterminado. Así que no se pregunte si los resultados varían ligeramente en el futuro.

cbeleites apoya a Monica el

Esta es una excelente respuesta. Transmite toda la información clave que puede leer en los documentos sobre el tema, pero de manera muy concisa y clara. Si pudiera votar dos veces, lo haría.

SigmaX

El binconfmétodo Hmisctambién calcula estos intervalos. El valor predeterminado es el método Wilson.

SigmaX

$p\pm z_{\alpha/2}\sqrt{p(1-p)/n}$ $\pi_0$ $\pi_0$ $\pi_0$

\frac{El | pags - π_{0 0} El |}{\sqrt{pags (1 - pags) / / norte}} = 0 0

$\frac{|p-\pi_0|}{\sqrt{p(1-p)/n}}=0$

(1 + z_{0 0}^{2} / / norte) π_{0 0}^{2} + (- 2 pags - z_{0 0}^{2} / / norte) π_{0 0} + {pags}^{2} = 0 0

$(1+z_0^2/n)\pi_0^2+(-2p-z_0^2/n)\pi_0+p^2=0$

Jay Schyler Raadt
fuente

π_{0}

$\pi_0$

π_{0}

$\pi_0$

p

$p$

n

$n$

Eso es agresti.

Nick Cox

@NickCox es un trabajo diferente

Jay Schyler Raadt

Alan Agresti ha publicado varios textos. Supongo que te estás refiriendo a Una Introducción al Análisis de Datos Categóricos (2a edición 2007; 3a edición programada para publicación en octubre de 2018 y puede tener una fecha 2019) de John Wiley.

Nick Cox