Mientras derivaba formalmente el intervalo de confianza de una estimación, terminé con una fórmula que se parece mucho a la forma en que se calcula el valor .
De ahí la pregunta: ¿son formalmente equivalentes? Es decir, ¿rechaza una hipótesis con un valor crítico equivalente a no pertenece al intervalo de confianza con valor crítico ?
hypothesis-testing
confidence-interval
p-value
Jorge Leitao
fuente
fuente
Respuestas:
Si y no.
Primero el "si"
Lo que ha observado es que cuando una prueba y un intervalo de confianza se basan en la misma estadística, existe una equivalencia entre ellos: podemos interpretar el valor como el valor más pequeño de para el cual el valor nulo del parámetro se incluiría en el intervalo de confianza .p α 1−α
Deje que sea un parámetro desconocido en el espacio de parámetros , y deje que la muestra sea una realización de la variable aleatoria . Para simplificar, defina un intervalo de confianza como un intervalo aleatorio tal que su probabilidad de cobertura (De manera similar, podría considerar intervalos más generales, donde la probabilidad de cobertura está limitada o aproximadamente igual a . El razonamiento es análogo).θ Θ⊆R x=(x1,…,xn)∈Xn⊆Rn X=(X1,…,Xn) Iα(X)
Considere una prueba de dos lados de la hipótesis de punto nulo contra la alternativa . Deje que denote el valor p de la prueba. Para cualquier , se rechaza en el nivel if . La región de rechazo de nivel es el conjunto de que conduce al rechazo de :H0(θ0):θ=θ0 H1(θ0):θ≠θ0 λ(θ0,x) α∈(0,1) H0(θ0) α λ(θ0,x)≤α α x H0(θ0)
Ahora, considere una familia de pruebas de dos lados con valores p , para . Para dicha familia podemos definir una región de rechazo invertidaλ(θ,x) θ∈Θ
Para cualquier fija , se rechaza si , lo que sucede si y solo si , es decir, Si la prueba se basa en una estadística de prueba con una distribución nula absolutamente continua completamente especificada, entonces bajo . Entonces Dado que esta ecuación se cumple para cualquierθ0 H0(θ0) x∈Rα(θ0) θ0∈Qα(x)
A continuación se muestra una ilustración que muestra las regiones de rechazo y los intervalos de confianza correspondientes a la prueba para una media normal, para diferentes medias nulas y diferentes medias de muestra , con . se rechaza si está en la región sombreada de color gris claro. En gris oscuro se muestra la región de rechazo y el intervalo de confianza .z θ x¯ σ=1 H0(θ) (x¯,θ) R0.05(−0.9)=(−∞,−1.52)∪(−0.281,∞) I0.05(1/2)=QC0.05(1/2)=(−0.120,1.120)
(Gran parte de esto está tomado de mi tesis doctoral ).
Ahora para el "no"
Arriba describí la forma estándar de construir intervalos de confianza. En este enfoque, usamos algunas estadísticas relacionadas con el parámetro desconocido para construir el intervalo. También hay intervalos basados en algoritmos de minimización, que tratan de minimizar la longitud de la condición intervalo en el valor de . Por lo general, dichos intervalos no corresponden a una prueba.θ X
Este fenómeno tiene que ver con problemas relacionados con que dichos intervalos no estén anidados, lo que significa que el intervalo del 94% puede ser más corto que el intervalo del 95%. Para más información sobre esto, consulte la Sección 2.5 de este reciente trabajo mío (que aparecerá en Bernoulli).
Y un segundo "no"
En algunos problemas, el intervalo de confianza estándar no se basa en la misma estadística que la prueba estándar (como lo discutió Michael Fay en este documento ). En esos casos, los intervalos de confianza y las pruebas pueden no dar los mismos resultados. Por ejemplo, puede ser rechazado por la prueba aunque 0 esté incluido en el intervalo de confianza. Esto no contradice el "sí" anterior, ya que se utilizan estadísticas diferentes.θ0=0
Y a veces "sí" no es algo bueno
Como señala f coppens en un comentario, a veces los intervalos y las pruebas tienen objetivos algo conflictivos. Queremos intervalos cortos y pruebas con alta potencia, pero el intervalo más corto no siempre corresponde a la prueba con la potencia más alta. Para algunos ejemplos de esto, vea este artículo (distribución normal multivariante), o este (distribución exponencial), o la Sección 4 de mi tesis .
Los bayesianos también pueden decir sí y no
Hace algunos años, publiqué una pregunta aquí sobre si existe una equivalencia de intervalo de prueba también en las estadísticas bayesianas. La respuesta corta es que, utilizando pruebas de hipótesis Bayesianas estándar, la respuesta es "no". Sin embargo, al reformular un poco el problema de las pruebas, la respuesta puede ser "sí". (¡Mis intentos de responder mi propia pregunta finalmente se convirtieron en un papel !)
fuente
Al observar un solo parámetro, es posible que una prueba sobre el valor del parámetro y el intervalo de confianza "no coincida" dependiendo de cómo se construyan. En particular, una prueba de hipótesis es una prueba de nivel , si rechaza la hipótesis nula una proporción del tiempo en que la hipótesis nula es verdadera. Por esa razón, se pueden usar, por ejemplo, estimaciones de parámetros del modelo (por ejemplo, la varianza) que solo son válidos bajo la hipótesis nula. Si luego se intenta construir un IC invirtiendo esta prueba, la cobertura puede no ser del todo correcta bajo la hipótesis alternativa. Por esa razón, generalmente se construirá un intervalo de confianza de manera diferente para que la cobertura también sea correcta bajo la alternativa, lo que puede conducir a un desajuste (generalmente muy pequeño).α ≤α
fuente