(Para ver por qué escribí esto, revise los comentarios debajo de mi respuesta a esta pregunta ).
Errores tipo III y teoría de decisión estadística
Dar la respuesta correcta a la pregunta incorrecta a veces se denomina error de Tipo III. La teoría de la decisión estadística es una formalización de la toma de decisiones bajo incertidumbre; Proporciona un marco conceptual que puede ayudar a evitar errores de tipo III. El elemento clave del marco se llama la función de pérdida . Toma dos argumentos: el primero es (el subconjunto relevante de) el verdadero estado del mundo (por ejemplo, en problemas de estimación de parámetros, el verdadero valor del parámetro ); el segundo es un elemento en el conjunto de acciones posibles (por ejemplo, en problemas de estimación de parámetros, la estimacióntheta ). El resultado modela la pérdida asociada con cada acción posible con respecto a cada posible estado verdadero del mundo. Por ejemplo, en problemas de estimación de parámetros, algunas funciones de pérdida bien conocidas son:
- la pérdida de error absoluta
- la pérdida de error al cuadrado
- Pérdida de LINEX de Hal Varian
Examinando la respuesta para encontrar la pregunta
Hay un caso en el que uno podría intentar cometer errores de tipo III al evitar centrarse en formular una función de pérdida correcta y continuar con el resto del enfoque teórico de decisión (no detallado aquí). Ese no es mi resumen: después de todo, los estadísticos están bien equipados con muchas técnicas y métodos que funcionan bien a pesar de que no se derivan de ese enfoque. Pero me parece que el resultado final es que la gran mayoría de los estadísticos no saben y no les importa la teoría de la decisión estadística, y creo que se están perdiendo. Para esos estadísticos, diría que la razón por la que pueden considerar valiosa la teoría de la decisión estadística en términos de evitar el error de Tipo III es porque proporciona un marco en el que solicitar cualquier procedimiento de análisis de datos propuesto:¿Qué función de pérdida (si la hay) hace frente el procedimiento de manera óptima? Es decir, ¿en qué situación de toma de decisiones, exactamente, proporciona la mejor respuesta?
Pérdida esperada posterior
Desde una perspectiva bayesiana, la función de pérdida es todo lo que necesitamos. Podemos omitir el resto de la teoría de la decisión: casi por definición, lo mejor que puede hacer es minimizar la pérdida posterior esperada, es decir, encontrar la acción que minimice .˜ L ( a ) = ∫ Θ L ( θ , a ) p ( θ | D ) d θ
(¿Y en cuanto a las perspectivas no bayesianas? Bueno, es un teorema de la teoría de decisión frecuentista, específicamente, el Teorema de clase completo de Wald, que la acción óptima siempre será minimizar la pérdida esperada posterior bayesiana con respecto a algunos (posiblemente impropia) anterior. La dificultad con este resultado es que es un teorema de la existencia que no ofrece orientación sobre cuál es el uso previo. Pero restringe fructíferamente la clase de procedimientos que podemos "invertir" para determinar exactamente qué pregunta es que estamos En particular, el primer paso para invertir cualquier procedimiento no bayesiano es descubrir qué (si alguno) procedimiento bayesiano se replica o aproxima.
Hola Cyan, sabes que este es un sitio de preguntas y respuestas, ¿verdad?
Lo que me lleva, finalmente, a una pregunta estadística. En las estadísticas bayesianas, cuando se proporcionan estimaciones de intervalo para parámetros univariantes, dos procedimientos de intervalo creíbles comunes son el intervalo creíble basado en cuantiles y el intervalo creíble de densidad posterior más alto. ¿Cuáles son las funciones de pérdida detrás de estos procedimientos?
Respuestas:
En la estimación de intervalo univariante, el conjunto de acciones posibles es el conjunto de pares ordenados que especifican los puntos finales del intervalo. Deje que un elemento de ese conjunto esté representado por .( a , b ) , a ≤ b
Intervalos de densidad posterior más altos
Deje que la densidad posterior sea . Los intervalos de densidad posterior más altos corresponden a la función de pérdida que penaliza un intervalo que no contiene el valor verdadero y también penaliza los intervalos en proporción a su longitud:F( θ )
donde es la función del indicador . Esto da la pérdida posterior esperadayo( ⋅ )
La configuración de produce la condición necesaria para un óptimo local en el interior del espacio de parámetros: : exactamente la regla para los intervalos HPD, como se esperaba.f(a)=f(b)=k∂∂unaL~HPAGSre= ∂∂siL~HPAGSre= 0 F( a ) = f( b ) = k
La forma de da una idea de por qué los intervalos HPD no son invariables a una transformación monótona creciente del parámetro. El intervalo HPD -space transformado en espacio es diferente del intervalo HPD g- -space porque los dos intervalos corresponden a diferentes funciones de pérdida: el intervalo HPD g- -space corresponde a una penalización de longitud transformada .g(θ)θg(θ)gL~HPAGSre( ( a , b ) ; k ) sol( θ ) θ sol( θ ) g ( θ ) k ( g ( b ) - g ( a ) )sol( θ ) sol( θ ) k ( g( b ) - g( a ) )
Intervalos creíbles basados en cuantiles
Considere la estimación puntual con la función de pérdida
La pérdida esperada posterior es
Al establecer obtiene la ecuación implícitarereθ^L~q= 0
es decir, el óptimo es el % de la distribución posterior, como se esperaba. (100p)θ^ ( 100 p )
Por lo tanto, para obtener estimaciones de intervalos basados en cuantiles, la función de pérdida es
fuente
Intervalos de tamaño mínimo.
Una elección obvia de una función de pérdida para la selección de intervalos (tanto bayesianas como frecuentas) es usar el tamaño de los intervalos medido en términos de distribuciones marginales. Por lo tanto, comience con la propiedad deseada o la función de pérdida, y obtenga los intervalos óptimos. Esto no suele hacerse, como lo ejemplifica la presente pregunta, aunque sea posible. Para conjuntos creíbles bayesianos, esto corresponde a minimizar la probabilidad previa del intervalo, o maximizar la creencia relativa, por ejemplo, como se describe en Evans (2016). El tamaño también se puede usar para seleccionar conjuntos de confianza frecuentas (Schafer 2009). Los dos enfoques están relacionados y se pueden implementar con bastante facilidad a través de reglas de decisión que incluían preferentemente decisiones con gran información mutua puntual (Bartels 2017).
Bartels, C., 2017. Uso de conocimientos previos en pruebas frecuentistas. higo compartido. https://doi.org/10.6084/m9.figshare.4819597.v3
Evans, M., 2016. Medición de evidencia estadística usando creencia relativa. Revista de biotecnología computacional y estructural, 14, pp.91-96.
Schafer, CM y Stark, PB, 2009. Construcción de regiones de confianza del tamaño óptimo esperado. Revista de la Asociación Americana de Estadística, 104 (487), pp.1080-1089.
fuente