En su libro "Todas las estadísticas", el profesor Larry Wasserman presenta el siguiente ejemplo (11.10, página 188). Supongamos que tenemos una densidad tal que f ( x ) = c , donde g es una funciónconocida(no negativa, integrable), y la constante de normalización c > 0 esdesconocida.
Estamos interesados en aquellos casos en los que no podemos calcular . Por ejemplo, puede darse el caso de que f sea un pdf sobre un espacio muestral de muy alta dimensión.
Es bien sabido que existen técnicas de simulación que nos permiten tomar muestras de , aunque c es desconocido. Por lo tanto, el enigma es: ¿cómo podríamos estimar c a partir de una muestra así?
El profesor Wasserman describe la siguiente solución bayesiana: que sea algo anterior para c . La probabilidad es L x ( c ) = n ∏ i = 1 f ( x i ) = n ∏ i = 1 ( c Por lo tanto, el π posterior ( c ∣ x ) ∝ c n π ( c ) no depende de los valores de la muestra x 1 , ... , x n . Por lo tanto, un Bayesiano no puede usar la información contenida en la muestra para hacer inferencias sobre c .
El profesor Wasserman señala que "los bayesianos son esclavos de la función de probabilidad. Cuando la probabilidad va mal, también lo hará la inferencia bayesiana".
Mi pregunta para mis compañeros apiladores es: con respecto a este ejemplo en particular, ¿qué salió mal (si acaso) con la metodología bayesiana?
PD: Como el profesor Wasserman explicó amablemente en su respuesta, el ejemplo se debe a Ed George.
Respuestas:
Esto se discutió en mi artículo (publicado solo en Internet) "Sobre un ejemplo de Larry Wasserman" [ 1 ] y en un intercambio de blog entre Wasserman, Robins y otros comentaristas en el blog de Wasserman: [ 2 ]
La respuesta corta es que Wasserman (y Robins) generan paradojas al sugerir que los antecedentes en espacios de alta dimensión "deben" tener características que impliquen que el parámetro de interés se conoce a priori con certeza o un problema claramente relevante (sesgo de selección) se sabe con casi certeza que no está presente. De hecho, los antecedentes razonables no tendrían estas características. Estoy en el proceso de escribir una publicación resumida del blog para unir esto. Hay un excelente artículo de 2007, que muestra enfoques bayesianos sensibles a los ejemplos que Wasserman y Ritov consideran, por Hameling y Toussaint: "Estimadores bayesianos para el problema de Robins-Ritov" [ 3 ]
fuente
fuente
Estoy de acuerdo en que el ejemplo es raro. Quise decir que sería más un rompecabezas realmente. (El ejemplo se debe realmente a Ed George).
En cualquier caso, el papel
(con discusión) trata esencialmente el mismo problema.
El ejemplo al que alude Chris Sims en su respuesta es de una naturaleza muy diferente.
fuente
Esto es imposible: sabemos que si comenzamos con un previo adecuado, nuestro posterior no puede ser incorrecto para cada muestra posible (puede ser incorrecto dentro de un conjunto de probabilidad predictiva previa nula).
fuente
El ejemplo es un poco extraño y artificial. La razón por la cual la probabilidad va mal es porque g es una función conocida . El único parámetro desconocido es c, que no forma parte de la probabilidad. Además, dado que se conoce g, los datos no le brindan información sobre f. ¿Cuándo ves tal cosa en la práctica? Entonces, el posterior es solo proporcional al anterior y toda la información sobre c está en el anterior.
Está bien, pero piénsalo. Los frecuentes usan la máxima probabilidad y, por lo tanto, los frecuentas a veces también confían en la función de probabilidad. Bueno, el frecuentista puede estimar los parámetros de otras maneras que usted puede decir. Pero este problema inventado tiene solo un parámetro c y no hay información en los datos sobre c. Dado que se conoce g, no existe ningún problema estadístico relacionado con parámetros desconocidos que puedan deducirse del período de datos.
fuente
fuente
Podríamos extender la definición de posibles conocimientos (análoga a la extensión de datos para permitir que falten datos para datos que se observaron pero se perdieron) para incluir NULL (sin datos generados).
Por lo tanto, el posterior sería 0 o 1 (correcto), pero la probabilidad del modelo de datos anterior no está disponible (porque no puede determinar la condición requerida en el modelo de datos).
Entonces haces ABC.
Dibuja una "c" de la anterior.
Las "c" guardadas serán una aproximación de la verdadera posterior.
(La precisión de la aproximación dependerá de épsilon y la suficiencia del condicionamiento de esa aproximación).
fuente
fuente