¿Cuál es la justificación teórica de la decisión para los procedimientos de intervalo creíbles bayesianos?

20

(Para ver por qué escribí esto, revise los comentarios debajo de mi respuesta a esta pregunta ).

Errores tipo III y teoría de decisión estadística

Dar la respuesta correcta a la pregunta incorrecta a veces se denomina error de Tipo III. La teoría de la decisión estadística es una formalización de la toma de decisiones bajo incertidumbre; Proporciona un marco conceptual que puede ayudar a evitar errores de tipo III. El elemento clave del marco se llama la función de pérdida . Toma dos argumentos: el primero es (el subconjunto relevante de) el verdadero estado del mundo (por ejemplo, en problemas de estimación de parámetros, el verdadero valor del parámetro ); el segundo es un elemento en el conjunto de acciones posibles (por ejemplo, en problemas de estimación de parámetros, la estimacióntheta )θθ^). El resultado modela la pérdida asociada con cada acción posible con respecto a cada posible estado verdadero del mundo. Por ejemplo, en problemas de estimación de parámetros, algunas funciones de pérdida bien conocidas son:

  • la pérdida de error absolutaL(θ,θ^)=|θθ^|
  • la pérdida de error al cuadradoL(θ,θ^)=(θθ^)2
  • Pérdida de LINEX de Hal VarianL(θ,θ^;k)=exp(k(θθ^))k(θθ^)1, k0

Examinando la respuesta para encontrar la pregunta

Hay un caso en el que uno podría intentar cometer errores de tipo III al evitar centrarse en formular una función de pérdida correcta y continuar con el resto del enfoque teórico de decisión (no detallado aquí). Ese no es mi resumen: después de todo, los estadísticos están bien equipados con muchas técnicas y métodos que funcionan bien a pesar de que no se derivan de ese enfoque. Pero me parece que el resultado final es que la gran mayoría de los estadísticos no saben y no les importa la teoría de la decisión estadística, y creo que se están perdiendo. Para esos estadísticos, diría que la razón por la que pueden considerar valiosa la teoría de la decisión estadística en términos de evitar el error de Tipo III es porque proporciona un marco en el que solicitar cualquier procedimiento de análisis de datos propuesto:¿Qué función de pérdida (si la hay) hace frente el procedimiento de manera óptima? Es decir, ¿en qué situación de toma de decisiones, exactamente, proporciona la mejor respuesta?

Pérdida esperada posterior

Desde una perspectiva bayesiana, la función de pérdida es todo lo que necesitamos. Podemos omitir el resto de la teoría de la decisión: casi por definición, lo mejor que puede hacer es minimizar la pérdida posterior esperada, es decir, encontrar la acción que minimice .˜ L ( a ) = Θ L ( θ , a ) p ( θ | D ) d θaL~(a)=ΘL(θ,a)p(θ|D)dθ

(¿Y en cuanto a las perspectivas no bayesianas? Bueno, es un teorema de la teoría de decisión frecuentista, específicamente, el Teorema de clase completo de Wald, que la acción óptima siempre será minimizar la pérdida esperada posterior bayesiana con respecto a algunos (posiblemente impropia) anterior. La dificultad con este resultado es que es un teorema de la existencia que no ofrece orientación sobre cuál es el uso previo. Pero restringe fructíferamente la clase de procedimientos que podemos "invertir" para determinar exactamente qué pregunta es que estamos En particular, el primer paso para invertir cualquier procedimiento no bayesiano es descubrir qué (si alguno) procedimiento bayesiano se replica o aproxima.

Hola Cyan, sabes que este es un sitio de preguntas y respuestas, ¿verdad?

Lo que me lleva, finalmente, a una pregunta estadística. En las estadísticas bayesianas, cuando se proporcionan estimaciones de intervalo para parámetros univariantes, dos procedimientos de intervalo creíbles comunes son el intervalo creíble basado en cuantiles y el intervalo creíble de densidad posterior más alto. ¿Cuáles son las funciones de pérdida detrás de estos procedimientos?

Cian
fuente
Muy agradable. ¿Pero son las únicas funciones de pérdida que justifican estos procedimientos?
invitado
1
@Cyan >> Gracias por preguntar y responder la pregunta por mí :) Leeré todo esto y votaré siempre que sea posible.
Stéphane Laurent
44
Cita interesante de la teoría de decisión estadística de Berger y el análisis bayesiano : "no consideramos que los conjuntos creíbles tengan un claro papel teórico de decisión y, por lo tanto, desconfiamos de los enfoques de 'optimidad' para la selección de un conjunto creíble"
Simon Byrne
1
@Simon Byrne >> 1985 fue hace mucho tiempo; Me pregunto si todavía piensa eso.
Cyan
1
@Cyan: No lo sé, pero la teoría de la decisión es una parte de las estadísticas bayesianas que no ha cambiado mucho en los últimos 27 años (ha habido algunos resultados interesantes, pero el libro de Berger sigue siendo la referencia estándar), especialmente en comparación con la popularidad, el minimax resulta en estadísticas frecuentistas.
Simon Byrne

Respuestas:

15

En la estimación de intervalo univariante, el conjunto de acciones posibles es el conjunto de pares ordenados que especifican los puntos finales del intervalo. Deje que un elemento de ese conjunto esté representado por .(a,b), ab

Intervalos de densidad posterior más altos

Deje que la densidad posterior sea . Los intervalos de densidad posterior más altos corresponden a la función de pérdida que penaliza un intervalo que no contiene el valor verdadero y también penaliza los intervalos en proporción a su longitud:f(θ)

LHPD(θ,(a,b);k)=I(θ[a,b])+k(ba),0<kmaxθf(θ) ,

donde es la función del indicador . Esto da la pérdida posterior esperadaI()

L~HPD((a,b);k)=1Pr(aθb|D)+k(ba) .

La configuración de produce la condición necesaria para un óptimo local en el interior del espacio de parámetros: : exactamente la regla para los intervalos HPD, como se esperaba.f(a)=f(b)=kaL~HPD=bL~HPD=0f(a)=f(b)=k

La forma de da una idea de por qué los intervalos HPD no son invariables a una transformación monótona creciente del parámetro. El intervalo HPD -space transformado en espacio es diferente del intervalo HPD g- -space porque los dos intervalos corresponden a diferentes funciones de pérdida: el intervalo HPD g- -space corresponde a una penalización de longitud transformada .g(θ)θg(θ)gL~HPD((a,b);k)g(θ)θg(θ)g ( θ ) k ( g ( b ) - g ( a ) )g(θ)g(θ)k(g(b)g(a))

Intervalos creíbles basados ​​en cuantiles

Considere la estimación puntual con la función de pérdida

Lq(θ,θ^;p)=p(θ^θ)I(θ<θ^)+(1p)(θθ^)I(θθ^), 0p1 .

La pérdida esperada posterior es

L~q(θ^;p)=p(θ^E(θ|θ<θ^,D))+(1p)(E(θ|θθ^,D)θ^) .

Al establecer obtiene la ecuación implícitaddθ^L~q=0

Pr(θ<θ^|D)=p ,

es decir, el óptimo es el % de la distribución posterior, como se esperaba. (100p)θ^(100p)

Por lo tanto, para obtener estimaciones de intervalos basados ​​en cuantiles, la función de pérdida es

LqCI(θ,(a,b);pL,pU)=Lq(θ,a;pL)+Lq(θ,b;pU) .

Cian
fuente
1
Otra forma de motivar esto es reescribir la función de pérdida como una suma (ponderada) del ancho del intervalo más la distancia, si la hay, por la cual el intervalo no cubre la verdadera . θ
invitado
¿Hay alguna otra manera de pensar en intervalos basados ​​en cuantiles que no hagan referencia directa a los cuantiles o la duración del intervalo? Esperaba algo como "el intervalo cuantil maximiza / minimiza el promedio / mínimo / máximo / etc. algo-medida"
Rasmus Bååth
@ RasmusBååth, básicamente se pregunta, "¿cuáles son las condiciones necesarias en la función de pérdida para que los intervalos cuantiles sean la solución para la minimización de la pérdida esperada posterior?" Mi intuición, solo por la forma en que las matemáticas funcionan en la dirección hacia adelante, es que esto es prácticamente todo. Sin embargo, no lo he probado.
Cian
Por lo tanto, no estoy seguro acerca de una función de pérdida, pero sé de un procedimiento que, dependiendo de la función de pérdida de punto , dará como resultado un HPD o un intervalo cuantil. Suponga que tiene muestras aleatorias empate en la parte posterior. 1. Seleccione el punto en con la pérdida posterior más baja y agregue ese punto a su intervalo. 2. Elimine ese punto de , debido a esta eliminación, la pérdida posterior para los puntos restantes en ahora podría cambiar (dependiendo de ). 3. Sea feliz si su intervalo tiene la cobertura requerida, de lo contrario repita desde (1). L = L0 da HPD, L = L1 da intervalo cuantil. s s s s LLssssL
Rasmus Bååth
55
solo mencionando que la Sección 5.5.3 de Bayesian Choice cubre la derivación basada en pérdidas de conjuntos creíbles ...
Xi'an
1

Intervalos de tamaño mínimo.

Una elección obvia de una función de pérdida para la selección de intervalos (tanto bayesianas como frecuentas) es usar el tamaño de los intervalos medido en términos de distribuciones marginales. Por lo tanto, comience con la propiedad deseada o la función de pérdida, y obtenga los intervalos óptimos. Esto no suele hacerse, como lo ejemplifica la presente pregunta, aunque sea posible. Para conjuntos creíbles bayesianos, esto corresponde a minimizar la probabilidad previa del intervalo, o maximizar la creencia relativa, por ejemplo, como se describe en Evans (2016). El tamaño también se puede usar para seleccionar conjuntos de confianza frecuentas (Schafer 2009). Los dos enfoques están relacionados y se pueden implementar con bastante facilidad a través de reglas de decisión que incluían preferentemente decisiones con gran información mutua puntual (Bartels 2017).

Bartels, C., 2017. Uso de conocimientos previos en pruebas frecuentistas. higo compartido. https://doi.org/10.6084/m9.figshare.4819597.v3

Evans, M., 2016. Medición de evidencia estadística usando creencia relativa. Revista de biotecnología computacional y estructural, 14, pp.91-96.

Schafer, CM y Stark, PB, 2009. Construcción de regiones de confianza del tamaño óptimo esperado. Revista de la Asociación Americana de Estadística, 104 (487), pp.1080-1089.

usuario36160
fuente
Veo que estás citando a Evans según la sugerencia de Keith O'Rourke ( andrewgelman.com/2016/07/17/… ). Realmente me gustan las cosas de Evans.
Cian
¡Estoy muy contento de que Keith me haya informado sobre un trabajo que comienza de manera diferente pero termina en conclusiones similares! Es importante citar esto.
user36160