Intervalo de confianza para el muestreo de Bernoulli

42

Tengo una muestra aleatoria de variables aleatorias de Bernoulli , donde X i son iidrv y P ( X i = 1 ) = p , y p es un parámetro desconocido.X1...XNXiP(Xi=1)=pp

Obviamente, se puede encontrar una estimación de : p : = ( X 1 + + X N ) / N .pp^:=(X1++XN)/N

Mi pregunta es ¿cómo puedo construir un intervalo de confianza para ?p

ameba dice Reinstate Monica
fuente
2
La wikipedia tiene detalles sobre cómo calcular los intervalos de confianza para el muestreo de bernoulli .

Respuestas:

52
  • Si la , no es cerca de 1 o 0 , y tamaño de la muestra n es suficientemente grande (es decir, n p > 5 y n ( 1 - p ) > 5 , el intervalo de confianza se puede estimar mediante una distribución normal y El intervalo de confianza construido así:p^10nnp^>5n(1p^)>5

    p^±z1α/2p^(1p^)n
  • p^=0n>3095%[0,3n] p^=1n+1n+b

  • np^

R proporciona funciones binconf {Hmisc}y binom.confint {binom}que se pueden usar de la siguiente manera:

set.seed(0)
p <- runif(1,0,1)
X <- sample(c(0,1), size = 100, replace = TRUE, prob = c(1-p, p))
library(Hmisc)
binconf(sum(X), length(X), alpha = 0.05, method = 'all')
library(binom)
binom.confint(sum(X), length(X), conf.level = 0.95, method = 'all')

Agresti, Alan; Coull, Brent A. (1998). "Aproximado es mejor que 'exacto' para la estimación de intervalos de proporciones binomiales". The American Statistician 52: 119–126.

Jovanovic, BD y PS Levy, 1997. Una mirada a la regla de los tres. El estadístico estadounidense vol. 51, núm. 2, págs. 137-139

Ross, TD (2003). "Intervalos de confianza precisos para la proporción binomial y la estimación de la tasa de Poisson". Computers in Biology and Medicine 33: 509–531.

David LeBauer
fuente
3
(+1) Buena respuesta. Creo que esto se convertirá en una referencia para preguntas similares en el futuro. Sin embargo, la publicación cruzada es inusual; de hecho, creo que está mal visto porque arruina muchos aspectos del sistema de comentarios / referencias / hilos / comentarios. Considere eliminar una de las copias y reemplazarla por un enlace en un comentario.
whuber
@whuber gracias por los comentarios. He eliminado la otra copia.
David LeBauer el
En la primera fórmula, ¿qué son z1 y alfa?
Cirdec
z1α/21α/2α
3/n
7

Intervalos de confianza de máxima verosimilitud

p

β^0=log(p^/(1p^))

αβ0

CI(β0)α=β^0±Zα/21/(np^(1p^)

p

CI(p)α=1/(1+exp(CI(β0)α)

Este IC tiene el beneficio adicional de que las proporciones se encuentran en el intervalo entre 0 o 1, y el IC siempre es más estrecho que el intervalo normal, mientras que es del nivel correcto. Puede obtener esto muy fácilmente en R especificando:

set.seed(123)
y <- rbinom(100, 1, 0.35)
plogis(confint(glm(y ~ 1, family=binomial)))

    2.5 %    97.5 % 
0.2795322 0.4670450 

Intervalos de confianza binomiales exactos

Y=np^(n,p)p^

CIα=(Fp^1(0.025),Fp^1(0.975))

p

qbinom(p = c(0.025, 0.975), size = length(y), prob = mean(y))/length(y)
[1] 0.28 0.47

Intervalos de confianza imparciales medianos

pp1α/2

p1α/2:P(Y=0)/2+P(Y>y)>0.975

Esta también es una rutina computacional.

set.seed(12345)
y <- rbinom(100, 1, 0.01) ## all 0
cil <- 0
mupfun <- function(p) {
  0.5*dbinom(0, 100, p) + 
    pbinom(1, 100, p, lower.tail = F) - 
    0.975
} ## for y=0 successes out of n=100 trials
ciu <- uniroot(mupfun, c(0, 1))$root
c(cil, ciu)

[1] 0.00000000 0.05357998 ## includes the 0.01 actual probability

Los dos últimos métodos se implementan en el epitoolspaquete en R.

AdamO
fuente