En las estadísticas frecuentistas, existe una estrecha conexión entre los intervalos de confianza y las pruebas. Usando la inferencia sobre en la distribución como ejemplo, el intervalo de confianza \ bar {x} \ pm t _ {\ alpha / 2} (n-1) \ cdot s / \ sqrt {n} contiene todos los valores de \ mu que no son rechazados por la prueba t en el nivel de significancia \ alpha .N ( μ , σ 2 ) 1 - α ˉ x ± t α / 2 ( n - 1 ) ⋅ s / √ μtα
Los intervalos de confianza frecuentes son, en este sentido, pruebas invertidas. (Por cierto, esto significa que podemos interpretar el valor como el valor más pequeño de para el cual el valor nulo del parámetro se incluiría en el intervalo de confianza . Creo que esta puede ser una forma útil de explique qué son realmente los valores para las personas que conocen un poco de estadísticas).
Al leer sobre el fundamento teórico de la decisión de las regiones creíbles bayesianas , comencé a preguntarme si existe una conexión / equivalencia similar entre las regiones creíbles y las pruebas bayesianas.
- ¿Hay una conexión general?
- Si no hay una conexión general, ¿hay ejemplos en los que hay una conexión?
- Si no hay una conexión general, ¿cómo podemos ver esto?
Respuestas:
Me las arreglé para encontrar un ejemplo donde existe una conexión. Sin embargo, parece depender en gran medida de mi elección de la función de pérdida y del uso de hipótesis compuestas.
Comienzo con un ejemplo general, que luego es seguido por un caso especial simple que involucra la distribución normal.
Ejemplo general
Para un parámetro desconocido , deje que sea el espacio de parámetros y considere la hipótesis versus la alternativa .Θ θ ∈ Θ 0 θ ∈ Θ 1 = Θ ∖ Θ 0θ Θ θ∈Θ0 θ∈Θ1=Θ∖Θ0
Vamos sea una función de prueba, usando la notación en Xi'an 's El bayesiano elección (que es una especie de revés a lo que yo al menos estoy acostumbrado a), por lo que rechazamos si y aceptar if . Considere la función de pérdida La prueba de Bayes es entoncesΘ 0 φ = 0 Θ 0 φ = 1 L ( θ , φ ) = { 0 , si φ = I Θ 0 ( θ ) a 0 , si θ ∈ Θ 0 y φ = 0φ Θ0 φ=0 Θ0 φ=1
Tome y . La hipótesis nula se acepta si .a 1 = 1 - αa0=α≤0.5 a1=1−α P ( θ ∈ Θ 0 |Θ0 P(θ∈Θ0|x)≥1−α
Ahora, una región creíble es una región tal que . Por lo tanto, por definición, si es tal que , puede ser una región creíble solo si . P ( Θ c | x ) ≥ 1 - α Θ 0 P ( θ ∈ Θ 0 | x ) ≥ 1 - α Θ c P ( Θ 0 ∩ Θ cΘc P(Θc|x)≥1−α Θ0 P(θ∈Θ0|x)≥1−α Θc P(Θ0∩Θc|x)>0
Aceptamos la hipótesis nula si solo si cada región creíble contiene un subconjunto no nulo de .1−α Θ0
Un caso especial más simple
Para ilustrar mejor qué tipo de prueba tenemos en el ejemplo anterior, considere el siguiente caso especial.
Deje con . Establezca , y , de modo que deseamos probar si .θ ∼ N ( 0 , 1 ) Θ = R Θ 0 = ( - ∞ , 0 ] Θ 1 = ( 0 , ∞x∼N(θ,1) θ∼N(0,1) Θ=R Θ0=(−∞,0] θ ≤ 0Θ1=(0,∞) θ≤0
Los cálculos estándar dan donde es el cdf normal estándar.
Deje ser tal que . se acepta cuando . Φ ( z 1 - α ) = 1 - α Θ 0z1−α Φ(z1−α)=1−α Θ0 −x/2–√>z1−α
Esto es equivalente a aceptar cuandoPara , se rechaza cuando .α=0.05Θ0x>-2.33x≤2–√zα. α=0.05 Θ0 x>−2.33
Si, en cambio, usamos el , se rechaza cuando .Θ 0 x > - 2.33 - νθ∼N(ν,1) Θ0 x>−2.33−ν
Comentarios
La función de pérdida anterior, donde pensamos que aceptar falsamente la hipótesis nula es peor que rechazarla falsamente, a primera vista puede parecer un poco artificial. Sin embargo, puede ser de gran utilidad en situaciones en las que los "falsos negativos" pueden ser costosos, por ejemplo, al detectar enfermedades peligrosas contagiosas o terroristas.
La condición de que todas las regiones creíbles deben contener una parte de es en realidad un poco más fuerte de lo que esperaba: en el caso frecuente, la correspondencia es entre una sola prueba y un único intervalo de confianza y no entre una sola prueba y todos intervalos . 1 - α 1 - αΘ0 1−α 1−α
fuente
Michael y Fraijo sugirieron que simplemente verificar si el valor del parámetro de interés estaba contenido en alguna región creíble era el equivalente bayesiano de invertir los intervalos de confianza. Al principio era un poco escéptico al respecto, ya que no era obvio para mí que este procedimiento realmente resultara en una prueba bayesiana (en el sentido habitual).
Resulta que sí, al menos si estás dispuesto a aceptar un cierto tipo de funciones de pérdida. Muchas gracias a Zen , que proporcionó referencias a dos documentos que establecen una conexión entre las regiones HPD y las pruebas de hipótesis:
Trataré de resumirlos aquí, para referencia futura. De forma análoga al ejemplo de la pregunta original, trataré el caso especial donde las hipótesis son donde es el espacio de parámetros.
Pereira y Stern propusieron un método para probar dichas hipótesis sin tener que poner probabilidades previas en yΘ0 Θ1 .
Deje que denote la función de densidad de y definaθ T ( x ) = { θ : π ( θ | x ) > π ( θ 0 | x ) } .π(⋅) θ
Esto significa que es una región HPD , con credibilidad .T(x) P(θ∈T(x)|x)
La prueba de Pereira-Stern rechaza cuando es "pequeño" ( , por ejemplo). Para un posterior unimodal, esto significa que está lejos en las colas del posterior, lo que hace que este criterio sea algo similar al uso de valores p. En otras palabras, se rechaza al nivel si y solo si no está contenido en la región HPD .Θ0 P(θ∉T(x)|x) <0.05 θ0 Θ0 5 % 95 %
Deje que la función de prueba sea si se acepta y si se rechaza . Madruga y col. propuso la función de pérdida con .φ 1 Θ0 0 Θ0
La minimización de la pérdida esperada conduce a la prueba de Pereira-Stern donde se rechaza siΘ0 P(θ∉T(x)|x)<(b+c)/(a+c).
Hasta ahora todo está bien. La prueba de Pereira-Stern es equivalente a verificar si está en una región HPD y si hay una función de pérdida que genera esta prueba, lo que significa que se basa en la teoría de la decisión.θ0
La parte controvertida es que la función de pérdida depende dex . Si bien tales funciones de pérdida han aparecido en la literatura varias veces, no parecen ser generalmente aceptadas como muy razonables.
Para leer más sobre este tema, vea una lista de documentos que citan Madruga et al. artículo .
Actualización de octubre de 2012:
No estaba completamente satisfecho con la función de pérdida anterior, ya que su dependencia de hace que la toma de decisiones sea más subjetiva de lo que me gustaría. Pasé más tiempo pensando en este problema y terminé escribiendo una breve nota al respecto, publicada en arXiv el día de hoy .x
Supongamos que denota la función cuantil posterior de , de modo que . En lugar de los conjuntos HPD, consideramos el intervalo central (cola igual) . Para la prueba utilizando este intervalo puede justificarse en el marco de la toma de teoría y sin pérdida de una función que depende de .qα(θ|x) θ P(θ≤qα(θ|x))=α (qα/2(θ|x),q1−α/2(θ|x)) Θ0 x
El truco consiste en reformular el problema de probar la hipótesis de punto nulo como un problema de tres decisiones con conclusiones direccionales. se prueba con y .Θ0={θ0} Θ0 Θ−1={θ:θ<θ0} Θ1={θ:θ>θ0}
Deje que la función de prueba si aceptamos (tenga en cuenta que esta notación es la opuesta a la utilizada anteriormente). Resulta que bajo la función de pérdida ponderada los Bayes prueba es rechazar si no está en el intervalo central.φ=i Θi 0−1
Esto me parece una función de pérdida bastante razonable. Discuto esta pérdida, la pérdida de Madruga-Esteves-Wechsler y las pruebas usando conjuntos creíbles más adelante en el manuscrito en arXiv.
fuente
Casualmente leí tu artículo de arXiv antes de llegar a esta pregunta y ya escribí una entrada de blog en él ( programado para aparecer el 8 de octubre ). En resumen, considero que su construcción es de interés teórico, pero también creo que es demasiado artificial para recomendarla, especialmente. ya que no parece resolver el problema de la prueba bayesiana de hipótesis de punto nulo, que tradicionalmente requiere poner algo de masa previa en el valor del parámetro de punto nulo.
A saber, la solución que propone anteriormente (en la actualización de octubre) y como el Teorema 2 en su documento arXiv no es un procedimiento de prueba válido en el sentido de que toma tres valores, en lugar de los dos valores que corresponden a aceptar / rechazar. De manera similar, la función de pérdida que usa en el Teorema 3 (no reproducida aquí) equivale a probar una hipótesis unilateral, H 0 : θ ≤ θ 0 , en lugar de una hipótesis de punto nulo H 0 : θ = θ 0 .φ H0:θ≤θ0 H0:θ=θ0
Sin embargo, mi principal problema es que me parece que tanto el Teorema 3 como el Teorema 4 en su artículo arXiv no son válidos cuando es una hipótesis de punto nulo, es decir, cuando Θ 0 = { θ 0 } , sin masa previa.H0 Θ0={θ0}
fuente
Puede usar un intervalo creíble (o región HPD) para las pruebas de hipótesis bayesianas. No creo que sea común; sin embargo, para ser justos, no veo mucho ni uso pruebas formales de hipótesis bayesianas en la práctica. Los factores de Bayes se usan ocasionalmente (y en el "Núcleo Bayesiano" de Robert, algo elogiado) en la configuración de pruebas de hipótesis.
fuente
Una región creíble es solo una región donde la integral de la densidad posterior sobre la región tiene una probabilidad específica, por ejemplo, 0,95. Una forma de formar una prueba de hipótesis bayesiana es ver si los valores hipotéticos nulos de los parámetros caen en la región creíble. De esta manera, podemos tener una correspondencia similar 1-1 entre las pruebas de hipótesis y las regiones creíbles, al igual que los frecuentadores hacen con intervalos de confianza y pruebas de hipótesis. Pero esta no es la única forma de hacer pruebas de hipótesis.
fuente
Déjame darte cómo lo conseguí leyendo la respuesta de Tim .
Se basa en las vistas de tabla con hipótesis (parámetro estimado) en columnas y observaciones en las filas.
En la primera tabla, las probabilidades de col suman 1, es decir, son probabilidades condicionales, cuya condición, al ingresar al evento de columna, se proporciona en la fila inferior, llamada 'anterior'. En la última tabla, las filas suman de manera similar a 1 y en el medio tienes probabilidades conjuntas, es decir, probabilidades condicionales que encuentras en la primera y última tabla multiplicadas por la probabilidad de la condición, las anteriores.
Las tablas básicamente realizan la transformación bayesiana: en la primera tabla, usted da pdf de las observaciones (filas) en cada columna, establece el previo para esta hipótesis (sí, la columna de hipótesis es un pdf de observaciones bajo esa hipótesis), usted hace eso para cada columna y tabla la lleva primero a la tabla de probabilidades conjuntas y, luego, a las probabilidades de su hipótesis, condicionada por observaciones.
Como obtuve de la respuesta de Tim (corríjame si me equivoco), el enfoque del intervalo crítico mira la primera tabla. Es decir, una vez que se completa el experimento, conocemos la fila de la tabla (ya sea cara o cruz en mi ejemplo, pero puede hacer experimentos más complejos, como lanzar 100 monedas y obtener una tabla con 2 ^ 100 filas). Los escaneos frequentialistas a través de sus columnas, que, como he dicho, es una distribución de posibles resultados bajo la condición de que la hipótesis sea verdadera (por ejemplo, la moneda es justa en mi ejemplo), y rechaza las hipótesis (columnas) que han dado un valor de probabilidad muy bajo en la fila observada
Bayesianista primero ajusta las probabilidades, convierte las columnas en filas y mira la tabla 3, encuentra la fila del resultado observado. Como también es un pdf, pasa por la fila de resultados del experimento y elige la hipetesis más alta hasta que su bolsillo de credibilidad del 95% esté lleno. El resto de la hipótesis es rechazada.
¿Te gusta eso? Todavía estoy en el proceso de aprendizaje y la gráfica me parece útil. Creo que estoy en el camino correcto, ya que un usuario de confianza da la misma imagen, cuando analiza la diferencia de dos enfoques . He propuesto una vista gráfica de la mecánica de selección de hipótesis.
Animo a todos a leer esa última respuesta de Keith, pero mi imagen de la mecánica de prueba de hipótesis puede decir de inmediato que el frecuentista no mira la otra hipótesis cuando verifica la actual, mientras que la consideración de una hipótesis de alta credibilidad tiene un gran impacto en la recepción / rechazo de otras hipótesis en bayesiano análisis porque si tiene una única hipótesis que ocurre el 95% de las veces bajo los datos observados, arroja todas las demás hipótesis de inmediato, independientemente de qué tan bien encajen los datos dentro de ellas. Pongamos a un lado el análisis de poder estadístico, que contrasta dos hipótesis basadas en la superposición de sus intervalos de confianza.
Pero, parece que he visto la similitud entre dos enfoques: parecen estar conectados a través de la
P(A | B) > P(A) <=> P(B|A) > P(B)
propiedad . Básicamente, si existe una dependencia entre A y B, aparecerá como correlación en las tablas freq y bayesianas. Entonces, al hacer una prueba de hipótesis se correlaciona con la otra, deben dar los mismos resultados. Estudiar las raíces de la correlación, probablemente te dará la conexión entre los dos. En mi pregunta, en realidad pregunto ¿por qué es la diferencia en lugar de la correlación absoluta?fuente