¿Cuándo debería preocuparme la paradoja de Jeffreys-Lindley en la elección del modelo bayesiano?

12

Estoy considerando un espacio grande (pero finito) de modelos de complejidad variable que exploro usando RJMCMC . Lo anterior en el vector de parámetros para cada modelo es bastante informativo.

  1. ¿En qué casos (si corresponde) debería preocuparme la paradoja de Jeffreys-Lindley que favorece modelos más simples cuando uno de los modelos más complejos sería más adecuado?

  2. ¿Hay ejemplos simples que resalten los problemas de la paradoja en la elección del modelo bayesiano?

He leído un par de artículos, a saber, el blog de Xian y el blog de Andrew Gelman , pero todavía no acabo de entender el problema.

Jeff
fuente
1
Creo que hay demasiadas preguntas y son demasiado distintas para ser respondidas efectivamente aquí.
jaradniemi
Gracias por los comentarios, @jaradniemi, eliminé la pregunta "¿Debería el procedimiento RJMCMC, que efectivamente devuelve las probabilidades del modelo posterior, favorecer los mismos modelos que DIC?"
Jeff

Respuestas:

5

Perdón por no estar claro en mi blog !

Nota: proporcioné algunos antecedentes sobre la elección del modelo bayesiano y la paradoja de Jeffreys-Lindley en esta otra respuesta en Cross validada.

La paradoja de Jeffreys-Lindley está relacionada con la elección del modelo bayesiano en que la probabilidad marginal deja de tener sentido cuando es una medida -finita (es decir, una medida con masa infinita) en lugar de una medida de probabilidad. La razón de esta dificultad es que la masa infinita hace que y indistinguibles para cualquier constante positiva . En particular, el factor Bayes no puede usarse y no debe usarse cuando un modelo está dotado de un "plano" anterior.π σ π c π

m(x)=π(θ)f(x|θ)dθ
πσπcπc

La paradoja original de Jeffreys-Lindley utiliza la distribución normal como ejemplo. Al comparar los modelos y el factor Bayes es Está bien definido cuando es un prior apropiado pero si toma un previo normal en y deje que vaya al infinito, el denominador va a cero para cualquier valor de diferente de cero y cualquier valor de . (A menos que yx ~ N ( θ , 1 ) B 12 = exp { - n ( ˉ x n ) 2 / 2 }

xN(0,1)
xN(θ,1)
B12=exp{n(x¯n)2/2}+exp{n(x¯nθ)2/2}π(θ)dθ
πN(0,τ2)θτx¯nnτnestán relacionados, ¡pero esto se vuelve más complicado!) Si en su lugar usa directamente donde es una constante necesariamente arbitraria, el factor de Bayes será tanto, depende directamente de .
π(θ)=c
cB12 c
B12=exp{n(x¯n)2/2}c+exp{n(x¯nθ)2/2}dθ=exp{n(x¯n)2/2}c2π/n
c

Ahora, si sus antecedentes son informativos (y por lo tanto correctos), no hay razón para que ocurra la paradoja de Jeffreys-Lindley. Con un número suficiente de observaciones, el factor Bayes seleccionará de manera consistente el modelo que generó los datos. (O, más precisamente, el modelo dentro de la colección de modelos considerados para la elección del modelo más cercano al modelo "verdadero" que generó los datos).

Xi'an
fuente
2
Muchas gracias por tu respuesta muy detallada, Xi'an! Su blog es muy claro (he aprendido mucho de él). ¡Solo tardé un poco en comprender este problema en particular!
Jeff
En realidad, mi blog funciona con suposiciones muy variables sobre antecedentes y requisitos previos, por lo que no está claro a veces y para muchos lectores.
Xi'an