Bayesianos: esclavos de la función de probabilidad?

62

En su libro "Todas las estadísticas", el profesor Larry Wasserman presenta el siguiente ejemplo (11.10, página 188). Supongamos que tenemos una densidad tal que f ( x ) = cf , donde g es una funciónconocida(no negativa, integrable), y la constante de normalización c > 0 esdesconocida.f(x)=cg(x)gc>0

Estamos interesados ​​en aquellos casos en los que no podemos calcular . Por ejemplo, puede darse el caso de que f sea ​​un pdf sobre un espacio muestral de muy alta dimensión.c=1/g(x)dxf

Es bien sabido que existen técnicas de simulación que nos permiten tomar muestras de , aunque c es desconocido. Por lo tanto, el enigma es: ¿cómo podríamos estimar c a partir de una muestra así?fcc

El profesor Wasserman describe la siguiente solución bayesiana: que sea ​​algo anterior para c . La probabilidad es L x ( c ) = n i = 1 f ( x i ) = n i = 1 ( cπc Por lo tanto, el π posterior ( c x ) c n π ( c ) no depende de los valores de la muestra x 1 , ... , x n . Por lo tanto, un Bayesiano no puede usar la información contenida en la muestra para hacer inferencias sobre c .

Lx(c)=i=1nf(xi)=i=1n(cg(xi))=cni=1ng(xi)cn.
π(cx)cnπ(c)
x1,,xnc

El profesor Wasserman señala que "los bayesianos son esclavos de la función de probabilidad. Cuando la probabilidad va mal, también lo hará la inferencia bayesiana".

Mi pregunta para mis compañeros apiladores es: con respecto a este ejemplo en particular, ¿qué salió mal (si acaso) con la metodología bayesiana?

PD: Como el profesor Wasserman explicó amablemente en su respuesta, el ejemplo se debe a Ed George.

zen
fuente
10
Este ejemplo suena simplemente como una forma extraña e ineficaz de llevar a cabo la integración numérica en lugar de como cualquier análisis bayesiano.
whuber
2
¿Cómo puedes decir que el Bayesiano no aprende nada sobre . Si este fuera el caso, tendríamos π ( c | x ) π ( c ) . Claramente no lo es. cπ(c|x)π(c)
probabilidadislogic
2
g()ccg()any
He ideado un enfoque formalmente bayesiano que puede superar la objeción de @ Zen, no contraindica la falta de interés de Xi'an y termina simplemente evaluando la precisión de la integración numérica.
Phaneron
1
Un buen seguimiento en el blog de Larry: normaldeviate.wordpress.com/2012/10/05/…
Zen

Respuestas:

43

Esto se discutió en mi artículo (publicado solo en Internet) "Sobre un ejemplo de Larry Wasserman" [ 1 ] y en un intercambio de blog entre Wasserman, Robins y otros comentaristas en el blog de Wasserman: [ 2 ]

La respuesta corta es que Wasserman (y Robins) generan paradojas al sugerir que los antecedentes en espacios de alta dimensión "deben" tener características que impliquen que el parámetro de interés se conoce a priori con certeza o un problema claramente relevante (sesgo de selección) se sabe con casi certeza que no está presente. De hecho, los antecedentes razonables no tendrían estas características. Estoy en el proceso de escribir una publicación resumida del blog para unir esto. Hay un excelente artículo de 2007, que muestra enfoques bayesianos sensibles a los ejemplos que Wasserman y Ritov consideran, por Hameling y Toussaint: "Estimadores bayesianos para el problema de Robins-Ritov" [ 3 ]

Chris Sims
fuente
12
Gracias por su contribución, Prof. Sims. ¿Estás de acuerdo con mi respuesta a continuación? PD: Ahora tenemos premios Nobel publicados en SE. ¿Qué hay sobre eso? nobelprize.org/nobel_prizes/economics/laureates/2011/sims.html
Zen
1
@ChrisSims Profesor Sims ¡Gracias por venir y volar mi respuesta con su respuesta autoritaria!
Michael Chernick
44
Estoy alarmado por el hecho de que esta respuesta tiene el total de votos más alto (en este momento). Como señala el profesor Wasserman, la respuesta del profesor Sims es sobre un rompecabezas completamente diferente al que le preguntó Zen. Infiero que la mayoría de la gente lo votó sin haber leído y entendido los enlaces que Sims proporcionó.
Cian
3
Cyan, puedes encontrar los comentarios del Prof. Sim con respecto a este rompecabezas en Link [1], WassermanComment.pdf, p. 10, Sección VII.
Postdata
43

c

1/Xg(x)dx
cx1,,xncc(aparte de la masa de Dirac en el valor anterior). Esto no es en absoluto un problema estadístico, sino más bien una cuestión numérica .

x1,,xnc

Xi'an
fuente
44
¡No es posible comenzar con un previo apropiado y terminar con un posterior incorrecto si la probabilidad es una densidad condicional verdadera!
Xi'an
πcπX1,X2,,XnccRx=rnorm(100,c,1)ccxcc
3
No soy de Finetti, ¡así que no puedo responder por él!
Xi'an
3
f(x1,,xn|c)
40

Estoy de acuerdo en que el ejemplo es raro. Quise decir que sería más un rompecabezas realmente. (El ejemplo se debe realmente a Ed George).

cc

En cualquier caso, el papel

A. Kong, P. McCullagh, X.-L. Meng, D. Nicolae y Z. Tan (2003), Una teoría de modelos estadísticos para la integración de Monte Carlo , J. Royal Statistic. Soc. B , vol. 65, no. 3, 585–604

(con discusión) trata esencialmente el mismo problema.

El ejemplo al que alude Chris Sims en su respuesta es de una naturaleza muy diferente.

Larry Wasserman
fuente
3
Profesor Wasserman Gracias por venir y explicar su ejemplo y su historia. Yo era un estudiante graduado en Stanford y me superpuse con Ed George. El Departamento de Estadística de Stanford era muy poco bayesiano en aquellos días, aunque con Efron y Stein estábamos al margen de Bayes empíricos. Sin embargo, el departamento tenía una mente muy abierta y Dennis Lindley dio un curso de posgrado en estadísticas bayesianas que tomé un verano. De alguna manera, Ed se convirtió para convertirse en un Bayesiano de pleno derecho e incluso escribió un artículo sobre el muestreo de Gibbs para tontos (aunque no con ese título, por supuesto).
Michael Chernick
1
Tengo y disfruto leyendo sus pequeños libros "Todas las estadísticas" y "Todos los no paramétricos".
Michael Chernick
1
tal vez no sea coincidencia, discutí este artículo de Kong et al. (2003), siendo principalmente negativo sobre la eficiencia del uso de transformaciones grupales en la medida en lugar de en la distribución. Últimamente, Xiao-Li me encaminó hacia una percepción más positiva del artículo ...
Xi'an
1
"Suponga que no puede hacer la integral numérica". Entiendo que la incertidumbre lógica (de la cual este es un ejemplo) se ha resistido al análisis a pesar de los esfuerzos considerables.
John Salvatier
cgg(x1)g(x2)g
23

g:RRCX1,,XnC=cfXiC(xic)=cg(xi)c>0

fXiC(c) cc=(g(x)dx)1CCπ

x=(x1,,xn)

Lx(c)=i=1n(cg(xi)),
cx

π(c)=1c2I[1,)(c).
0π(c)dc=1
π(cx)1c2nI[1,)(c).
01c2nI[1,)(c)dc
n1

Esto es imposible: sabemos que si comenzamos con un previo adecuado, nuestro posterior no puede ser incorrecto para cada muestra posible (puede ser incorrecto dentro de un conjunto de probabilidad predictiva previa nula).

zen
fuente
+
1
Hola Michael. Por supuesto que puede: Gamma, Lognormal, etc., etc. No veo cómo se relaciona esto con la respuesta. Probablemente no entiendo lo que estás diciendo.
Zen
Bueno, tengo problemas para seguir tu argumento. Usted dice que la densidad condicional para f solo existe para una c, pero eso no es cierto. No veo por qué la expresión para la probabilidad es inválida y cómo se obtiene una prueba por contradicción asumiendo un previo adecuado y mostrando de alguna manera que conduce a una distribución posterior incorrecta.
Michael Chernick
Me parece que el quid de la cuestión es que los datos son realmente independientes de c y no contienen información sobre c. Creo que se puede decir que hay una función de probabilidad que involucra a c pero esta probabilidad no se puede maximizar como una función de c. Para cada elección de c, creo que hay una f = cg.
Michael Chernick
44
g(.)g(.)p(c|g(.))=δ(c0g(x)dx)p(Z|XY)p(Z|X)YZX
11

El ejemplo es un poco extraño y artificial. La razón por la cual la probabilidad va mal es porque g es una función conocida . El único parámetro desconocido es c, que no forma parte de la probabilidad. Además, dado que se conoce g, los datos no le brindan información sobre f. ¿Cuándo ves tal cosa en la práctica? Entonces, el posterior es solo proporcional al anterior y toda la información sobre c está en el anterior.

Está bien, pero piénsalo. Los frecuentes usan la máxima probabilidad y, por lo tanto, los frecuentas a veces también confían en la función de probabilidad. Bueno, el frecuentista puede estimar los parámetros de otras maneras que usted puede decir. Pero este problema inventado tiene solo un parámetro c y no hay información en los datos sobre c. Dado que se conoce g, no existe ningún problema estadístico relacionado con parámetros desconocidos que puedan deducirse del período de datos.

Michael Chernick
fuente
cf^fxc^=f^(x)/g(x)c
44
@Zen Ok, tomemos ese ejemplo. ¿Por qué recopilar datos? Sabemos g. ¡Entonces podemos integrarlo numéricamente para determinar c al nivel de precisión que deseemos sin tener que estimar nada! La suposición de que no podemos calcular c, lo que significa que a pesar de que conocemos g en función de x, ¡no podemos integrarlo! Creo que su ejemplo es débil y también lo es el argumento y, en general, me gustan sus libros.
Michael Chernick
11

c

g()g()g()g()

g()g()

David Rohde
fuente
Sorprendido, esto no tiene más votos a favor. Esto llega al meollo del problema, que es la afirmación ambigua de que "sabes" qué es una función solo porque puedes evaluarla en cualquier momento. Creo que un criterio más apropiado para decir que "conoce" una función es la capacidad de evaluar cualquier función lineal continua en ella.
Nick Alger
@ Nick Alger: La gente probablemente perdió interés. No lo estoy votando porque no estoy convencido de que sea Bayes: ¿el xi en el conjunto D (xi, f (xi)) se refiere a xi observado en el estudio o generado aleatoriamente por ellos? Si es el primero, es Bayes pero muy fácil de superar con MC simple con unos pocos segundos de tiempo de cálculo (por lo que no funciona bien) o no es Bayes (no ha condicionado los datos).
Phaneron
-2

Podríamos extender la definición de posibles conocimientos (análoga a la extensión de datos para permitir que falten datos para datos que se observaron pero se perdieron) para incluir NULL (sin datos generados).

π(c)=1c2I[1,)(c).

c=(g(x)dx)1

fXaC(xac)fXiC(xic)=c1g(xi)

faXaC(xac)=0

Por lo tanto, el posterior sería 0 o 1 (correcto), pero la probabilidad del modelo de datos anterior no está disponible (porque no puede determinar la condición requerida en el modelo de datos).

Entonces haces ABC.

Dibuja una "c" de la anterior.

(g(x)dx)1

Las "c" guardadas serán una aproximación de la verdadera posterior.

(La precisión de la aproximación dependerá de épsilon y la suficiencia del condicionamiento de esa aproximación).

Phaneron
fuente
-5

π(c|x)=(Πig(xi))cnπ(c),
{xi}
confuso
fuente
2
xf(xc)π(c)dci=1ng(xi)