Estimación del intervalo de confianza binomial: ¿por qué no es simétrica?

30

He utilizado el siguiente código r para estimar los intervalos de confianza de una proporción binomial porque entiendo que eso sustituye a un "cálculo de potencia" al diseñar diseños de curvas características de funcionamiento del receptor que buscan la detección de enfermedades en una población.

n es 150, y creemos que la enfermedad prevalece en un 25% en la población. He calculado los valores para 75% de sensibilidad y 90% de especificidad (porque eso es lo que la gente parece hacer).

    binom.test(c(29,9), p=0.75, alternative=c("t"), conf.level=0.95)

    binom.test(c(100, 12), p=0.90, alternative=c("t"), conf.level=0.95)

También he visitado este sitio:

http://statpages.org/confint.html

Que es una página de Java que calcula intervalos de confianza binomiales, y da la misma respuesta.

De todos modos, después de esa larga configuración, quiero preguntar por qué los intervalos de confianza no son simétricos, por ejemplo, la sensibilidad es

   95 percent confidence interval:
   0.5975876 0.8855583 

   sample estimate probability: 0.7631579 

Lo siento si esta es una pregunta estúpida, pero en todas partes que miro parece sugerir que serán simétricas, y un colega mío parece pensar que también lo serán.

Chris Beeley
fuente

Respuestas:

20

Se cree que son simétricos porque a menudo se usa una aproximación normal. Éste funciona lo suficientemente bien en caso de que p mida alrededor de 0.5 binom.testpor otro lado, informa los intervalos "exactos" de Clopper-Pearson, que se basan en la distribución F (consulte aquí las fórmulas exactas de ambos enfoques). Si implementamos el intervalo Clopper-Pearson en R, sería algo así como (ver nota ):

Clopper.Pearson <- function(x, n, conf.level){
    alpha <- (1 - conf.level) / 2
    QF.l <- qf(1 - alpha, 2*n - 2*x + 2, 2*x)
    QF.u <- qf(1 - alpha, 2*x + 2, 2*n - 2*x)

    ll <- if (x == 0){
          0
    } else { x / ( x + (n-x+1)*QF.l ) }

    uu <- if (x == 0){
          0
    } else { (x+1)*QF.u / ( n - x + (x+1)*QF.u ) }

    return(c(ll, uu))
}

Puede ver tanto en el enlace como en la implementación que la fórmula para el límite superior e inferior son completamente diferentes. El único caso de un intervalo de confianza simétrico es cuando p = 0.5. Usando las fórmulas del enlace y teniendo en cuenta que en este caso es fácil deducir cómo viene.norte=2×X

Personalmente lo entendí mejor mirando los intervalos de confianza basados ​​en un enfoque logístico. Los datos binomiales generalmente se modelan utilizando una función de enlace logit, definida como:

losolyot(X)=Iniciar sesión(X1-X)

Esta función de enlace "asigna" el término de error en una regresión logística a una distribución normal. Como consecuencia, los intervalos de confianza en el marco logístico son simétricos alrededor de los valores logit, al igual que en el marco de regresión lineal clásico. La transformación logit se usa exactamente para permitir el uso de toda la teoría basada en la normalidad alrededor de la regresión lineal.

Después de hacer la transformación inversa:

logit1(x)=ex1+eX

Obtienes un intervalo asimétrico de nuevo. Ahora estos intervalos de confianza están sesgados. Su cobertura no es lo que cabría esperar, especialmente en los límites de la distribución binomial. Sin embargo, como ilustración, le muestran por qué es lógico que una distribución binomial tenga intervalos de confianza asimétricos.

Un ejemplo en R:

logit <- function(x){ log(x/(1-x)) }
inv.logit <- function(x){ exp(x)/(1+exp(x)) }
x <- c(0.2, 0.5, 0.8)
lx <- logit(x)
upper <- lx + 2
lower <- lx - 2

logxtab <- cbind(lx, upper, lower)
logxtab # the confidence intervals are symmetric by construction
xtab <- inv.logit(logxtab)
xtab # back transformation gives asymmetric confidence intervals

nota : De hecho, R usa la distribución beta, pero esto es completamente equivalente y computacionalmente un poco más eficiente. La implementación en R es, por lo tanto, diferente de lo que muestro aquí, pero da exactamente el mismo resultado.

Joris Meys
fuente
2
¿Realmente quisiste decir que el logit "transforma la distribución binomial en una distribución normal"?
whuber
@whuber: buena captura de la fórmula y buena captura de la formulación. Bastante no. Se asegura de que los errores en una regresión logística sigan la distribución normal. Gracias por la corrección.
Joris Meys
Solo una breve nota técnica, la transformación "arcoseno" es aquella que tiene una convergencia más rápida a la normalidad que la transformación logística. Establezca (donde es el número de "éxitos" y el número de intentos), y puede mostrar con El llamado "método delta" que la varianza de es aproximadamente constante (e independiente de , como debería ser en la distribución normal). XNYYY=2πarcsinXnorteXnorteYY
chanceislogic
El enlace que proporciona para "probabilidades exactas" no funciona ¿Tienes otro?
S. Kolassa - Restablece a Mónica el
@StephanKolassa Puedes encontrar las fórmulas de Clopper Pearson aquí también: en.wikipedia.org/wiki/…
Joris Meys
24

Para ver por qué no debe ser simétrico, piense en la situación en la que y obtiene 9 éxitos en 10 ensayos. Entonces y el IC del 95% para es [0.554, 0.997]. El límite superior no puede ser mayor que 1 obviamente, por lo que la mayor parte de la incertidumbre debe caer a la izquierda de .p = 0,9 p ppags=0.9pags^=0.9pagspags^

Rob Hyndman
fuente
9

@Joris mencionó el intervalo simétrico o "asintótico", que probablemente sea el que está esperando. @Joris también mencionó los intervalos "exactos" de Clopper-Pearson y le dio una referencia que se ve muy bien. Existe otro intervalo de confianza para las proporciones que probablemente encontrará (tenga en cuenta que tampoco es simétrico), el intervalo "Wilson", que es un tipo de intervalo asintótico basado en la inversión de la prueba de puntaje. Los puntos finales del intervalo resuelven (en ) la ecuación ( p - p ) / pags

(pags^-pags)/ /pags(1-pags)=±zα/ /2

De todos modos, puedes obtener los tres en R con lo siguiente:

library(Hmisc)
binconf(29, 38, method = "asymptotic")
binconf(29, 38, method = "exact")
binconf(29, 38, method = "wilson")

Tenga en cuenta que el método "wilson" es el mismo intervalo de confianza utilizado por prop.test sin la corrección de continuidad de Yates:

prop.test(29, 38, correct = FALSE)

Consulte aquí el manual gratuito SPLUS + R de Laura Thompson que acompaña al Análisis de datos categóricos de Agresti en el que se analizan estos temas con gran detalle.


fuente
1
(+1) Me alegra que cites el libro de texto de Laura y agregues este complemento de información sobre los CI de Wilson.
chl
2
Gracias. Me gustaría señalar que el intervalo de Wilson se discute en el artículo al que hace referencia @Joris.
9

No son los intervalos de confianza simétricos para la distribución binomial: asimetría no es forzado en nosotros, a pesar de todas las razones ya mencionadas. Los intervalos simétricos generalmente se consideran inferiores en ese

  1. Aunque son simétricos numéricamente , no son simétricos en probabilidad : es decir, sus coberturas de una cola difieren entre sí. Esto, una consecuencia necesaria de la posible asimetría de la distribución binomial, es el quid de la cuestión.

  2. A menudo, un punto final no debe ser realista (menor que 0 o mayor que 1), como señala @Rob Hyndman.

Dicho esto, sospecho que los CI numéricamente simétricos pueden tener algunas buenas propiedades, como tender a ser más cortos que los simétricos probabilísticamente en algunas circunstancias.

whuber
fuente
pags^=k/ /norte
@cb No sigo esto. Primero, un IC más corto no necesariamente tendrá densidades iguales en cada extremo. En segundo lugar, el comentario sobre "no existe" no tiene sentido para mí: ¿qué significa "no existe"?
whuber
1
CI más corto. Para calcular el IC más corto para una cobertura dada, comenzaría con la densidad máxima y ampliaría un pequeño paso hacia el lado donde la densidad es mayor. Allí obtengo la mayor cobertura de confianza (por el breve paso que es). Amplío el ci repetidamente hasta tener el área deseada (cobertura). Si mis pasos son pequeños (infinitesimales), la densidad en ambos lados será (aproximadamente) la misma. ¿Cometí un error en esta estrategia?
cbeleites apoya a Monica el
pagspags^=4 4/ /5 5=0.8pagspags<70%
1
pags=0.8k{3,4 4,5 5}norte=5 5pagsnortekpagsk=4 4norte=5 5PAGSr(pagsEl |norte=5 5,k=4 4)pags[0 0,1]PAGSr(kEl |norte,pags)pags
6

pags0 01nortepags0,5

chl
fuente
2

Sé que ha pasado un tiempo, pero pensé que iba a sonar aquí. Dado n y p, es simple calcular la probabilidad de un número particular de éxitos directamente usando la distribución binomial. Luego se puede examinar la distribución para ver que no es simétrica. Se acercará a la simetría para np grande y n grande (1-p).

Uno puede acumular las probabilidades en las colas para calcular un CI particular. Dada la naturaleza discreta de la distribución, encontrar una probabilidad particular en una cola (por ejemplo, 2.5% para un IC del 95%) requerirá la interpolación entre el número de éxitos. Con este método, uno puede calcular los CI directamente sin aproximación (aparte de la interpolación requerida).

Dr. eric
fuente