¿Cuál es la conexión entre las regiones creíbles y las pruebas de hipótesis bayesianas?

38

En las estadísticas frecuentistas, existe una estrecha conexión entre los intervalos de confianza y las pruebas. Usando la inferencia sobre en la distribución como ejemplo, el intervalo de confianza \ bar {x} \ pm t _ {\ alpha / 2} (n-1) \ cdot s / \ sqrt {n} contiene todos los valores de \ mu que no son rechazados por la prueba t en el nivel de significancia \ alpha .N ( μ , σ 2 ) 1 - α ˉ x ± t α / 2 ( n - 1 ) s / μN(μ,σ2)1α μtα

x¯±tα/2(n1)s/n
μtα

Los intervalos de confianza frecuentes son, en este sentido, pruebas invertidas. (Por cierto, esto significa que podemos interpretar el valor p como el valor más pequeño de α para el cual el valor nulo del parámetro se incluiría en el intervalo de confianza 1α . Creo que esta puede ser una forma útil de explique qué son realmente los valores p para las personas que conocen un poco de estadísticas).

Al leer sobre el fundamento teórico de la decisión de las regiones creíbles bayesianas , comencé a preguntarme si existe una conexión / equivalencia similar entre las regiones creíbles y las pruebas bayesianas.

  • ¿Hay una conexión general?
  • Si no hay una conexión general, ¿hay ejemplos en los que hay una conexión?
  • Si no hay una conexión general, ¿cómo podemos ver esto?
MånsT
fuente
Una pregunta relacionada sobre la que me he estado preguntando: ¿podría alguien señalarme un artículo que consideran el "estándar de oro" o el "ejemplo canónico" de las pruebas de hipótesis bayesianas utilizadas en un problema real, en lugar de un ejemplo de juguete. Nunca he entendido realmente las pruebas de hipótesis bayesianas y creo que encontraría un buen ejemplo de su uso instructivo.
Patrick Caldon
2
@PatrickCaldon Dudo que haya un "documento de oro" sobre esto porque las pruebas de hipótesis bayesianas se formulan en un marco teórico de decisión (por lo tanto, es demasiado amplio para ser capturado en un solo documento). El libro mencionado en la respuesta de MånsT proporciona un buen material, los libros y charlas de Berger también podrían ser de interés.
Creo que el documento ba.stat.cmu.edu/vol03is01.php puede aclarar la mayor parte de nuestra discusión aquí.
Carlos AB Pereira
¡Gracias @Carlos! El enlace no parece funcionar en este momento, pero supongo que conduce a su artículo de 2008 en Análisis Bayesiano con Stern y Wechsler. ¡Me pareció una lectura muy interesante!
MånsT
Estimado MånsT: El Análisis Bayesiano se trasladó al Proyecto Euclides. El papel del Prof. Carlos está aquí: projecteuclid.org/…
Zen

Respuestas:

19

Me las arreglé para encontrar un ejemplo donde existe una conexión. Sin embargo, parece depender en gran medida de mi elección de la función de pérdida y del uso de hipótesis compuestas.

Comienzo con un ejemplo general, que luego es seguido por un caso especial simple que involucra la distribución normal.

Ejemplo general

Para un parámetro desconocido , deje que sea ​​el espacio de parámetros y considere la hipótesis versus la alternativa .Θ θ Θ 0 θ Θ 1 = Θ Θ 0θΘθΘ0θΘ1=ΘΘ0

Vamos sea una función de prueba, usando la notación en Xi'an 's El bayesiano elección (que es una especie de revés a lo que yo al menos estoy acostumbrado a), por lo que rechazamos si y aceptar if . Considere la función de pérdida La prueba de Bayes es entoncesΘ 0 φ = 0 Θ 0 φ = 1 L ( θ , φ ) = { 0 , si  φ = I Θ 0 ( θ ) a 0 , si  θ Θ 0  y  φ = 0φΘ0φ=0Θ0φ=1

L(θ,φ)={0,if φ=IΘ0(θ)a0,if θΘ0 and φ=0a1,if θΘ1 and φ=1.
φπ(x)=1ifP(θΘ0|x)a1(a0+a1)1.

Tome y . La hipótesis nula se acepta si .a 1 = 1 - αa0=α0.5a1=1α P ( θ Θ 0 |Θ0P(θΘ0|x)1α

Ahora, una región creíble es una región tal que . Por lo tanto, por definición, si es tal que , puede ser una región creíble solo si . P ( Θ c | x ) 1 - α Θ 0 P ( θ Θ 0 | x ) 1 - α Θ c P ( Θ 0Θ cΘcP(Θc|x)1αΘ0P(θΘ0|x)1αΘcP(Θ0Θc|x)>0

Aceptamos la hipótesis nula si solo si cada región creíble contiene un subconjunto no nulo de .1αΘ0

Un caso especial más simple

Para ilustrar mejor qué tipo de prueba tenemos en el ejemplo anterior, considere el siguiente caso especial.

Deje con . Establezca , y , de modo que deseamos probar si .θ N ( 0 , 1 ) Θ = R Θ 0 = ( - , 0 ] Θ 1 = ( 0 , xN(θ,1)θN(0,1)Θ=RΘ0=(,0]θ 0Θ1=(0,)θ0

Los cálculos estándar dan donde es el cdf normal estándar.

P(θ0|x)=Φ(x/2),
Φ()

Deje ser tal que . se acepta cuando . Φ ( z 1 - α ) = 1 - α Θ 0z1αΦ(z1α)=1αΘ0x/2>z1α

Esto es equivalente a aceptar cuandoPara , se rechaza cuando .α=0.05Θ0x>-2.33x2zα.α=0.05Θ0x>2.33

Si, en cambio, usamos el , se rechaza cuando .Θ 0 x > - 2.33 - νθN(ν,1)Θ0x>2.33ν

Comentarios

La función de pérdida anterior, donde pensamos que aceptar falsamente la hipótesis nula es peor que rechazarla falsamente, a primera vista puede parecer un poco artificial. Sin embargo, puede ser de gran utilidad en situaciones en las que los "falsos negativos" pueden ser costosos, por ejemplo, al detectar enfermedades peligrosas contagiosas o terroristas.

La condición de que todas las regiones creíbles deben contener una parte de es en realidad un poco más fuerte de lo que esperaba: en el caso frecuente, la correspondencia es entre una sola prueba y un único intervalo de confianza y no entre una sola prueba y todos intervalos . 1 - α 1 - αΘ01α1α

MånsT
fuente
2
+1 Usaría la región de credibilidad en lugar del intervalo de credibilidad .
1
Gracias @Procrastinator! Edité la respuesta y la cambié a "región" mientras estaba allí. Principalmente trabajo con regiones HPD de posteriores unimodales, por lo que tiendo a pensar en las regiones de confianza como intervalos. :)
MånsT
12

Michael y Fraijo sugirieron que simplemente verificar si el valor del parámetro de interés estaba contenido en alguna región creíble era el equivalente bayesiano de invertir los intervalos de confianza. Al principio era un poco escéptico al respecto, ya que no era obvio para mí que este procedimiento realmente resultara en una prueba bayesiana (en el sentido habitual).

Resulta que sí, al menos si estás dispuesto a aceptar un cierto tipo de funciones de pérdida. Muchas gracias a Zen , que proporcionó referencias a dos documentos que establecen una conexión entre las regiones HPD y las pruebas de hipótesis:

Trataré de resumirlos aquí, para referencia futura. De forma análoga al ejemplo de la pregunta original, trataré el caso especial donde las hipótesis son donde es el espacio de parámetros.

H0:θΘ0={θ0}andH1:θΘ1=ΘΘ0,
Θ

Pereira y Stern propusieron un método para probar dichas hipótesis sin tener que poner probabilidades previas en yΘ0Θ1 .

Deje que denote la función de densidad de y definaθ T ( x ) = { θ : π ( θ | x ) > π ( θ 0 | x ) } .π()θ

T(x)={θ:π(θ|x)>π(θ0|x)}.

Esto significa que es una región HPD , con credibilidad .T(x)P(θT(x)|x)

La prueba de Pereira-Stern rechaza cuando es "pequeño" ( , por ejemplo). Para un posterior unimodal, esto significa que está lejos en las colas del posterior, lo que hace que este criterio sea algo similar al uso de valores p. En otras palabras, se rechaza al nivel si y solo si no está contenido en la región HPD .Θ0P(θT(x)|x)<0.05θ0Θ05 %95 %

Deje que la función de prueba sea si se acepta y si se rechaza . Madruga y col. propuso la función de pérdida con .φ1Θ00Θ0

L(θ,φ,x)={a(1I(θT(x)),if φ(x)=0b+cI(θ(T(x)),if φ(x)=1,
a,b,c>0

La minimización de la pérdida esperada conduce a la prueba de Pereira-Stern donde se rechaza siΘ0P(θT(x)|x)<(b+c)/(a+c).

Hasta ahora todo está bien. La prueba de Pereira-Stern es equivalente a verificar si está en una región HPD y si hay una función de pérdida que genera esta prueba, lo que significa que se basa en la teoría de la decisión.θ0

La parte controvertida es que la función de pérdida depende dex . Si bien tales funciones de pérdida han aparecido en la literatura varias veces, no parecen ser generalmente aceptadas como muy razonables.

Para leer más sobre este tema, vea una lista de documentos que citan Madruga et al. artículo .


Actualización de octubre de 2012:

No estaba completamente satisfecho con la función de pérdida anterior, ya que su dependencia de hace que la toma de decisiones sea más subjetiva de lo que me gustaría. Pasé más tiempo pensando en este problema y terminé escribiendo una breve nota al respecto, publicada en arXiv el día de hoy .x

Supongamos que denota la función cuantil posterior de , de modo que . En lugar de los conjuntos HPD, consideramos el intervalo central (cola igual) . Para la prueba utilizando este intervalo puede justificarse en el marco de la toma de teoría y sin pérdida de una función que depende de .qα(θ|x)θP(θqα(θ|x))=α(qα/2(θ|x),q1α/2(θ|x))Θ0x

El truco consiste en reformular el problema de probar la hipótesis de punto nulo como un problema de tres decisiones con conclusiones direccionales. se prueba con y .Θ0={θ0}Θ0Θ1={θ:θ<θ0}Θ1={θ:θ>θ0}

Deje que la función de prueba si aceptamos (tenga en cuenta que esta notación es la opuesta a la utilizada anteriormente). Resulta que bajo la función de pérdida ponderada los Bayes prueba es rechazar si no está en el intervalo central.φ=iΘi01

L2(θ,φ)={0,if θΘi and φ=i,i{1,0,1},α/2,if θΘ0 and φ=0,1,if θΘiΘ0 and φ=i,i{1,1},
Θ0θ0

Esto me parece una función de pérdida bastante razonable. Discuto esta pérdida, la pérdida de Madruga-Esteves-Wechsler y las pruebas usando conjuntos creíbles más adelante en el manuscrito en arXiv.

revs MånsT
fuente
2
(Estoy marcando esto como una wiki comunitaria)
MånsT
Cuando dice "Para llegar a la prueba de Pereira-Stern, debemos minimizar la pérdida posterior esperada", bueno, en realidad lo hacemos en cualquier procedimiento de decisión bayesiano. La diferencia aquí es que la función de pérdida depende de los datos (como usted señaló), que no es estándar. Normalmente tenemos . L:{ParameterSpace}×{Actions}R
Zen
@ Zen: Sí, por supuesto, lo expresé mal. Gracias por señalar eso. :)
MånsT
3
@ MånsT: (+1) Esta es una respuesta interesante. Respeto mucho el hecho de que eligió marcar esto como CW en este caso, pero desearía que no lo hubiera hecho. :-)
cardenal
8

Casualmente leí tu artículo de arXiv antes de llegar a esta pregunta y ya escribí una entrada de blog en él ( programado para aparecer el 8 de octubre ). En resumen, considero que su construcción es de interés teórico, pero también creo que es demasiado artificial para recomendarla, especialmente. ya que no parece resolver el problema de la prueba bayesiana de hipótesis de punto nulo, que tradicionalmente requiere poner algo de masa previa en el valor del parámetro de punto nulo.

A saber, la solución que propone anteriormente (en la actualización de octubre) y como el Teorema 2 en su documento arXiv no es un procedimiento de prueba válido en el sentido de que toma tres valores, en lugar de los dos valores que corresponden a aceptar / rechazar. De manera similar, la función de pérdida que usa en el Teorema 3 (no reproducida aquí) equivale a probar una hipótesis unilateral, H 0 : θ θ 0 , en lugar de una hipótesis de punto nulo H 0 : θ = θ 0 .φH0:θθ0H0:θ=θ0

Sin embargo, mi principal problema es que me parece que tanto el Teorema 3 como el Teorema 4 en su artículo arXiv no son válidos cuando es una hipótesis de punto nulo, es decir, cuando Θ 0 = { θ 0 } , sin masa previa.H0Θ0={θ0}

Xi'an
fuente
1
Gracias (+1) por tus comentarios! Espero con ansias leer tu blog. :) Como usted señala, los Teoremas 3 y 4 se refieren solo a hipótesis compuestas. El en el Teorema 2 es un error de imprenta. Debe leer α / 2 , en cuyo caso φ = 0 cuando α / 2 < min ( P ( Θ - 1 ) , P ( Θ 1 ) ) , que ocurre cuando θ 01α/2α/2φ=0α/2<min(P(Θ1),P(Θ1))θ0está en el intervalo creíble. ¡Cambiaré esto en el manuscrito arXiv lo antes posible!
MånsT
Tienes razón (¡+1!), ¡Estaba pensando en la desigualdad al revés! En el documento arXiv, la desigualdad central se escribe de manera incorrecta. es decir, uno debe aceptar iffH0
Xi'an
Es bueno escucharlo :) El manuscrito actualizado (con Thm 2 corregido) estará en arXiv el lunes. Asumiré que no es punto-nulo en Thm 4 también explícito. Θ0
MånsT
1
H0P(θΘi|x)>α/2
3

Puede usar un intervalo creíble (o región HPD) para las pruebas de hipótesis bayesianas. No creo que sea común; sin embargo, para ser justos, no veo mucho ni uso pruebas formales de hipótesis bayesianas en la práctica. Los factores de Bayes se usan ocasionalmente (y en el "Núcleo Bayesiano" de Robert, algo elogiado) en la configuración de pruebas de hipótesis.

Fraijo
fuente
1
Saludos @Fraijo! ¿Podrías explicar un poco cómo difiere tu respuesta de la de Michael Chernick?
MånsT
2
No creo que el uso de los factores de Bayes para probar hipótesis sea "ocasional", véase, por ejemplo, esta referencia .
@ MånsT en su seguimiento del proceso que Michael describe parece ser una prueba de Factor Bayes. Esencialmente, crea dos modelos con antecedentes diferentes basados ​​en su hipótesis y luego compara la probabilidad del conjunto de datos basado en esos antecedentes. La referencia Procrasinator publicada ofrece una revisión rápida de esto.
Fraijo
1
@Procrastinator, dije de vez en cuando solo porque en mi industria veo pocas personas que usan métodos bayesianos, y mucho menos que usan métodos bayesianos para probar hipótesis. Personalmente, utilizo los factores de Bayes para verificar la sensibilidad de mis modelos al anterior, lo que supongo que es una forma de prueba de hipótesis.
Fraijo
1
@ MånsT respuesta corta: no. Establecer un intervalo creíble y descubrir si contiene la hipótesis nula es la única prueba directa que es comparable a la prueba de hipótesis frecuentista. Hay dos problemas con este método: 1) el hecho obvio de que puede encontrar múltiples regiones en algunos casos (por ejemplo, una HPD versus una región simétrica) y 2) probar una hipótesis puntual (theta = a) entra en conflicto con el ideal bayesiano de parámetros tomando distribuciones (theta ~ P (theta)).
Fraijo
1

Una región creíble es solo una región donde la integral de la densidad posterior sobre la región tiene una probabilidad específica, por ejemplo, 0,95. Una forma de formar una prueba de hipótesis bayesiana es ver si los valores hipotéticos nulos de los parámetros caen en la región creíble. De esta manera, podemos tener una correspondencia similar 1-1 entre las pruebas de hipótesis y las regiones creíbles, al igual que los frecuentadores hacen con intervalos de confianza y pruebas de hipótesis. Pero esta no es la única forma de hacer pruebas de hipótesis.

Michael R. Chernick
fuente
¿Este tipo de pruebas Bayesianas ad hoc se usan a menudo en la práctica?
MånsT
1
@MansT No lo creo. Creo que, por lo general, los bayesianos ponen probabilidades previas de que la hipótesis nula sea verdadera y luego se basan en la construcción de datos de probabilidades posteriores. Si las probabilidades posteriores son extremadamente contrarias a la hipótesis nula, entonces se rechaza. Sin embargo, no soy la mejor persona para preguntar, ya que no hago inferencia bayesiana con mucha frecuencia.
Michael R. Chernick
2
La prueba descrita por Michael es acreditada a Lindley por Zellner en su libro sobre econometría bayesiana.
Zen
1
Sí, este tipo de pruebas ciertamente surgen de ideas bayesianas , pero no estoy seguro de si tienen una base sólida en la teoría de la decisión bayesiana . En la última configuración, esperaría que las pruebas se derivaran de una función de pérdida, que generalmente involucra una función de prueba.
MånsT
2
Estimado MånsT, eche un vistazo a estos documentos: mdpi.org/entropy/papers/e1040099.pdf w.ime.usp.br/~jstern/miscellanea/citacoes/swtest1.pdf
Zen
-1

Déjame darte cómo lo conseguí leyendo la respuesta de Tim .

Se basa en las vistas de tabla con hipótesis (parámetro estimado) en columnas y observaciones en las filas.

enter image description here

En la primera tabla, las probabilidades de col suman 1, es decir, son probabilidades condicionales, cuya condición, al ingresar al evento de columna, se proporciona en la fila inferior, llamada 'anterior'. En la última tabla, las filas suman de manera similar a 1 y en el medio tienes probabilidades conjuntas, es decir, probabilidades condicionales que encuentras en la primera y última tabla multiplicadas por la probabilidad de la condición, las anteriores.

Las tablas básicamente realizan la transformación bayesiana: en la primera tabla, usted da pdf de las observaciones (filas) en cada columna, establece el previo para esta hipótesis (sí, la columna de hipótesis es un pdf de observaciones bajo esa hipótesis), usted hace eso para cada columna y tabla la lleva primero a la tabla de probabilidades conjuntas y, luego, a las probabilidades de su hipótesis, condicionada por observaciones.

Como obtuve de la respuesta de Tim (corríjame si me equivoco), el enfoque del intervalo crítico mira la primera tabla. Es decir, una vez que se completa el experimento, conocemos la fila de la tabla (ya sea cara o cruz en mi ejemplo, pero puede hacer experimentos más complejos, como lanzar 100 monedas y obtener una tabla con 2 ^ 100 filas). Los escaneos frequentialistas a través de sus columnas, que, como he dicho, es una distribución de posibles resultados bajo la condición de que la hipótesis sea verdadera (por ejemplo, la moneda es justa en mi ejemplo), y rechaza las hipótesis (columnas) que han dado un valor de probabilidad muy bajo en la fila observada

Bayesianista primero ajusta las probabilidades, convierte las columnas en filas y mira la tabla 3, encuentra la fila del resultado observado. Como también es un pdf, pasa por la fila de resultados del experimento y elige la hipetesis más alta hasta que su bolsillo de credibilidad del 95% esté lleno. El resto de la hipótesis es rechazada.

¿Te gusta eso? Todavía estoy en el proceso de aprendizaje y la gráfica me parece útil. Creo que estoy en el camino correcto, ya que un usuario de confianza da la misma imagen, cuando analiza la diferencia de dos enfoques . He propuesto una vista gráfica de la mecánica de selección de hipótesis.

Animo a todos a leer esa última respuesta de Keith, pero mi imagen de la mecánica de prueba de hipótesis puede decir de inmediato que el frecuentista no mira la otra hipótesis cuando verifica la actual, mientras que la consideración de una hipótesis de alta credibilidad tiene un gran impacto en la recepción / rechazo de otras hipótesis en bayesiano análisis porque si tiene una única hipótesis que ocurre el 95% de las veces bajo los datos observados, arroja todas las demás hipótesis de inmediato, independientemente de qué tan bien encajen los datos dentro de ellas. Pongamos a un lado el análisis de poder estadístico, que contrasta dos hipótesis basadas en la superposición de sus intervalos de confianza.

Pero, parece que he visto la similitud entre dos enfoques: parecen estar conectados a través de la P(A | B) > P(A) <=> P(B|A) > P(B)propiedad . Básicamente, si existe una dependencia entre A y B, aparecerá como correlación en las tablas freq y bayesianas. Entonces, al hacer una prueba de hipótesis se correlaciona con la otra, deben dar los mismos resultados. Estudiar las raíces de la correlación, probablemente te dará la conexión entre los dos. En mi pregunta, en realidad pregunto ¿por qué es la diferencia en lugar de la correlación absoluta?

Pequeño alien
fuente