Se cree que son simétricos porque a menudo se usa una aproximación normal. Éste funciona lo suficientemente bien en caso de que p mida alrededor de 0.5 binom.test
por otro lado, informa los intervalos "exactos" de Clopper-Pearson, que se basan en la distribución F (consulte aquí las fórmulas exactas de ambos enfoques). Si implementamos el intervalo Clopper-Pearson en R, sería algo así como (ver nota ):
Clopper.Pearson <- function(x, n, conf.level){
alpha <- (1 - conf.level) / 2
QF.l <- qf(1 - alpha, 2*n - 2*x + 2, 2*x)
QF.u <- qf(1 - alpha, 2*x + 2, 2*n - 2*x)
ll <- if (x == 0){
0
} else { x / ( x + (n-x+1)*QF.l ) }
uu <- if (x == 0){
0
} else { (x+1)*QF.u / ( n - x + (x+1)*QF.u ) }
return(c(ll, uu))
}
Puede ver tanto en el enlace como en la implementación que la fórmula para el límite superior e inferior son completamente diferentes. El único caso de un intervalo de confianza simétrico es cuando p = 0.5. Usando las fórmulas del enlace y teniendo en cuenta que en este caso es fácil deducir cómo viene.n = 2 × x
Personalmente lo entendí mejor mirando los intervalos de confianza basados en un enfoque logístico. Los datos binomiales generalmente se modelan utilizando una función de enlace logit, definida como:
l o g i t ( x ) = log( x1 - x)
Esta función de enlace "asigna" el término de error en una regresión logística a una distribución normal. Como consecuencia, los intervalos de confianza en el marco logístico son simétricos alrededor de los valores logit, al igual que en el marco de regresión lineal clásico. La transformación logit se usa exactamente para permitir el uso de toda la teoría basada en la normalidad alrededor de la regresión lineal.
Después de hacer la transformación inversa:
logit−1(x)=ex1+ex
Obtienes un intervalo asimétrico de nuevo. Ahora estos intervalos de confianza están sesgados. Su cobertura no es lo que cabría esperar, especialmente en los límites de la distribución binomial. Sin embargo, como ilustración, le muestran por qué es lógico que una distribución binomial tenga intervalos de confianza asimétricos.
Un ejemplo en R:
logit <- function(x){ log(x/(1-x)) }
inv.logit <- function(x){ exp(x)/(1+exp(x)) }
x <- c(0.2, 0.5, 0.8)
lx <- logit(x)
upper <- lx + 2
lower <- lx - 2
logxtab <- cbind(lx, upper, lower)
logxtab # the confidence intervals are symmetric by construction
xtab <- inv.logit(logxtab)
xtab # back transformation gives asymmetric confidence intervals
nota : De hecho, R usa la distribución beta, pero esto es completamente equivalente y computacionalmente un poco más eficiente. La implementación en R es, por lo tanto, diferente de lo que muestro aquí, pero da exactamente el mismo resultado.
Para ver por qué no debe ser simétrico, piense en la situación en la que y obtiene 9 éxitos en 10 ensayos. Entonces y el IC del 95% para es [0.554, 0.997]. El límite superior no puede ser mayor que 1 obviamente, por lo que la mayor parte de la incertidumbre debe caer a la izquierda de .p = 0,9 p pp = 0.9 pags^= 0.9 pags pags^
fuente
@Joris mencionó el intervalo simétrico o "asintótico", que probablemente sea el que está esperando. @Joris también mencionó los intervalos "exactos" de Clopper-Pearson y le dio una referencia que se ve muy bien. Existe otro intervalo de confianza para las proporciones que probablemente encontrará (tenga en cuenta que tampoco es simétrico), el intervalo "Wilson", que es un tipo de intervalo asintótico basado en la inversión de la prueba de puntaje. Los puntos finales del intervalo resuelven (en ) la ecuación ( p - p ) / √pags
De todos modos, puedes obtener los tres en R con lo siguiente:
Tenga en cuenta que el método "wilson" es el mismo intervalo de confianza utilizado por prop.test sin la corrección de continuidad de Yates:
Consulte aquí el manual gratuito SPLUS + R de Laura Thompson que acompaña al Análisis de datos categóricos de Agresti en el que se analizan estos temas con gran detalle.
fuente
No son los intervalos de confianza simétricos para la distribución binomial: asimetría no es forzado en nosotros, a pesar de todas las razones ya mencionadas. Los intervalos simétricos generalmente se consideran inferiores en ese
Aunque son simétricos numéricamente , no son simétricos en probabilidad : es decir, sus coberturas de una cola difieren entre sí. Esto, una consecuencia necesaria de la posible asimetría de la distribución binomial, es el quid de la cuestión.
A menudo, un punto final no debe ser realista (menor que 0 o mayor que 1), como señala @Rob Hyndman.
Dicho esto, sospecho que los CI numéricamente simétricos pueden tener algunas buenas propiedades, como tender a ser más cortos que los simétricos probabilísticamente en algunas circunstancias.
fuente
fuente
Sé que ha pasado un tiempo, pero pensé que iba a sonar aquí. Dado n y p, es simple calcular la probabilidad de un número particular de éxitos directamente usando la distribución binomial. Luego se puede examinar la distribución para ver que no es simétrica. Se acercará a la simetría para np grande y n grande (1-p).
Uno puede acumular las probabilidades en las colas para calcular un CI particular. Dada la naturaleza discreta de la distribución, encontrar una probabilidad particular en una cola (por ejemplo, 2.5% para un IC del 95%) requerirá la interpolación entre el número de éxitos. Con este método, uno puede calcular los CI directamente sin aproximación (aparte de la interpolación requerida).
fuente