Intervalo de confianza alrededor de la proporción de dos proporciones

20

Tengo dos proporciones (p. Ej., Porcentaje de clics (CTR) en un enlace en un diseño de control y CTR en un enlace en un diseño experimental), y quiero calcular un intervalo de confianza del 95% en torno a la proporción de estas proporciones.

¿Cómo hago esto? Sé que puedo usar el método delta para calcular la varianza de esta relación, pero no estoy seguro de qué hacer además de eso. ¿Qué debo usar como punto medio del intervalo de confianza (mi relación observada o la relación esperada que es diferente) y cuántas desviaciones estándar alrededor de esta relación debo tomar?

¿Debo usar la variación del método delta? (Realmente no me importa la varianza, solo un intervalo de confianza). ¿Debo usar el Teorema de Fieller , usando el Caso 1 (dado que estoy haciendo proporciones, supongo que cumplo con el requisito de distribución normal)? ¿Debo calcular una muestra de bootstrap?

raegtin
fuente
1
Tiene un problema fundamental: la mayoría de las proporciones tienen una probabilidad positiva de ser cero, por lo que la proporción (de proporciones independientes) tiene una probabilidad positiva de ser indefinida. Esto puede presentar dificultades severas para los métodos aproximados (como el método delta) y sugiere que las aproximaciones normales deberían verse con más escepticismo y probarse con más rigor de lo habitual.
Whuber
Joseph L. Fleiss, Bruce Levin, Myunghee Cho Paik: Métodos estadísticos para tasas y proporciones [1] discute el riesgo relativo, que es un cociente de dos tasas. No tengo el libro, así que solo puedo ir por el índice de materias y la tabla de contenido, pero tal vez su biblioteca lo tenga. [1]: onlinelibrary.wiley.com/book/10.1002/0471445428
cbeleites apoya a Monica el
¿Seguramente un bootstrap percentil sería el mejor método?
Peter Ellis el

Respuestas:

19

La forma estándar de hacer esto en epidemiología (donde una relación de proporciones generalmente se conoce como relación de riesgo ) es primero transformar la relación logarítmica, calcular un intervalo de confianza en la escala logarítmica utilizando el método delta y asumiendo una distribución normal, luego transforma de nuevo. Esto funciona mejor en tamaños de muestra moderados que usar el método delta en la escala no transformada, aunque aún se comportará mal si el número de eventos en cualquiera de los grupos es muy pequeño, y falla completamente si no hay eventos en ninguno de los grupos.

Si hay y x 2 éxitos en los dos grupos fuera de los totales n 1 y n 2 , entonces la estimación obvio para la relación de proporciones es θ = x 1 / n 1x1x2n1n2

θ^=x1/n1x2/n2.

Utilizando el método delta y suponiendo que los dos grupos son independientes y los éxitos se distribuyen binomial, se puede mostrar que Tomando la raíz cuadrada de este da el error estándar SE ( log θ ) . Suponiendo que log θ se distribuye normalmente, un intervalo de confianza del 95% para log θ

Var(logθ^)=1/x11/n1+1/x21/n2.
SE(logθ^)logθ^logθse Exponentiating Esto da un intervalo de confianza del 95% para la relación de proporciones theta como θ exp [ ± 1,96 SE ( log θ ) ] .
logθ^±1.96SE(logθ^).
θ
θ^exp[±1.96SE(logθ^)].
una parada
fuente
55
n1n2n1p1n2p210x2=0xi=ni1/2xi1nipini4ni
@whuber: "enfoque similar a la corrección de continuidad": ¿es el uso de 1/2 en particular un truco común? (A diferencia de algún otro pseudocuenta pequeño.) La forma en que lo expresaste hace que 1/2 suene con principios de alguna manera =) - ¿lo es?
raegtin
xini
¿Por qué el error estándar de la raíz cuadrada de la varianza en este caso, no es la desviación estándar?
Mikko
2
@onestop ¿Se implementa esto en algún paquete R?
Bogdan Vasilescu