¿Por qué hay recomendaciones contra el uso de Jeffreys o anteriores basados ​​en entropía para muestreadores MCMC?

11

En su página wiki , los desarrolladores del estado de Stan:

Algunos principios que no nos gustan: invariancia, Jeffreys, entropía

En cambio, veo muchas recomendaciones de distribución normal. Hasta ahora utilicé métodos bayesianos que no dependían del muestreo, y me alegré de haber entendido por qué fue una buena opción para las probabilidades binomiales.θBeta(α=12,β=12)

wirrbel
fuente
1
Comentario genérico: la documentación del software no siempre recapitula los argumentos estadísticos de lo que hace y no hace el software. Eso es cierto para la mayoría de los paquetes R que he visto y no me sorprende escuchar lo mismo de Stan. Andrew Gelman es, evidentemente, un autor prolífico.
Nick Cox
1
Comentario genérico adicional: no encuentro este tipo de pregunta muy satisfactoria, en parte porque se trata de individuos particulares. Si los autores en vivo no explican en alguna parte, y obviamente no están activos aquí, envíeles un correo electrónico para preguntar. Es más satisfactorio preguntar en abstracción sobre los méritos relativos de los diferentes enfoques. A veces es justo decir que siempre puedes usar un software diferente si encuentras algo que falta, incluyendo escribir el tuyo. No divulgación: nunca usó Stan.
Nick Cox
@ NickCox No creo que esta pregunta se hubiera beneficiado de un anonimato, porque (1) el contexto de un software de samling es importante (2) mi impresión es que un rechazo de los antecedentes de Jeffreys es lo suficientemente inusual que vale la pena señalar que una fuente de renombre hace esa afirmación. (3) No creo que sea confrontativo citar a alguien en una pregunta.
wirrbel
1
Andy escribió "Algunos principios que no nos gustan: invariancia, Jeffreys, entropía", pero para ver por qué debería mirar en su libro
Ben Goodrich
1
Además, este documento contiene el pensamiento más reciente sobre los antecedentes entre tres desarrolladores de Stan.
Ben Goodrich

Respuestas:

13

Este es, por supuesto, un conjunto diverso de personas con una gama de opiniones que se juntan y escriben un wiki. Resumo que sé / entiendo con algunos comentarios:

  • Elegir su previo basado en la conveniencia computacional es una justificación insuficiente. Por ejemplo, usar una Beta (1/2, 1/2) únicamente porque permite la actualización del conjugado no es una buena idea. Por supuesto, una vez que llegue a la conclusión de que tiene buenas propiedades para el tipo de problema en el que trabaja, está bien y podría elegir una opción que facilite la implementación. Hay muchos ejemplos, donde las convenientes opciones predeterminadas resultan problemáticas (ver Gamna (0.001, 0.001) antes que permite el muestreo de Gibbs).

  • Con Stan, a diferencia de WinBUGS o JAGS, no hay una ventaja particular para conjugar (condicionalmente) anteriores. Por lo tanto, podría ignorar el aspecto computacional. Sin embargo, no del todo, porque con antecedentes muy pesados ​​(o antecedentes inadecuados) y datos que no identifican bien los parámetros, se encuentra con problemas (no es realmente un problema específico de Stan, pero Stan es bastante bueno para identificar estos problemas y advertir al usuario en lugar de muestrear felizmente)

  • Los antecedentes de Jeffreys y otros de "baja información" a veces pueden ser inadecuados o ser un poco difíciles de comprender en grandes dimensiones (no importa derivarlos) y con datos escasos. Puede ser que esto haya causado problemas con demasiada frecuencia para que los autores nunca se sientan cómodos con ellos. Una vez que trabajas en algo, aprendes más y te sientes cómodo, de ahí el cambio de opinión ocasional.

  • En la configuración de datos dispersos, lo anterior realmente importa y si puede especificar que los valores totalmente inverosímiles para un parámetro son inverosímiles, esto ayuda mucho. Esto motiva la idea de antecedentes poco informativos, no antecedentes verdaderamente informativos, sino aquellos con mayor apoyo a valores plausibles.

  • De hecho, podría preguntarse por qué uno se molesta con antecedentes no informativos, si tenemos muchos datos que identifican los parámetros realmente bien (uno podría usar la máxima probabilidad). Por supuesto, hay muchas razones (evitar patologías, obtener la "forma real" de los posteriores, etc.), pero en situaciones de "muchos datos" parece no haber un argumento real contra los antecedentes poco informativos.

  • Quizás un poco extraño un N (0, 1) es un sorprendente sorprendente decente para el coeficiente de regresión logística, Poisson o Cox para muchas aplicaciones. Por ejemplo, esa es aproximadamente la distribución de los efectos observados del tratamiento en muchos ensayos clínicos.
Björn
fuente
Gracias por la respuesta detallada. Supongo que mi asombro no es tanto acerca de la conjugación (porque si entiendo esto correctamente, los priors de Jeffreys no necesitan ser prioritarios conjugados, solo necesitan ser invariantes bajo reparametrización). Entonces, entendería totalmente los consejos contra los conjugados anteriores.
wirrbel
Creo que la preocupación con Jeffreys antes es principalmente que es un previo de alta dimensión que puede no ser un prior adecuado y puede tener cierta influencia en su inferencia que no comprende completamente. Creo que eso es principalmente una preocupación con datos escasos, aunque quizás alguien pueda señalar un ejemplo con datos no dispersos, donde ocurren algunos problemas (no estoy al tanto de ninguno). Además, con Jeffreys anteriores y varias otras opciones "no informativas", existe la incomodidad de tener que derivarlo.
Björn
8

No proporcionan ninguna justificación científica / matemática para hacerlo. La mayoría de los desarrolladores no trabajan en este tipo de antecedentes, y prefieren utilizar prioritarios más pragmáticos / heurísticos, como los prior normales con grandes variaciones (que pueden ser informativos en algunos casos). Sin embargo, es un poco extraño que estén contentos de usar versiones anteriores de PC, que se basan en Entropía (divergencia KL), después de que comenzaron a trabajar en este tema.

Un fenómeno similar ocurrió con WinBUGS , cuando los desarrolladores recomendaron el como un previo no informativo para los parámetros de precisión, ya que se asemeja a la forma del Jeffreys anterior. Este previo se convirtió en el previo predeterminado para los parámetros de precisión. Más tarde, se demostró (¡ por Gelman! ) Que pueden ser muy informativos.Gamma(0.001,0.001)

Anterior
fuente
¿podría proporcionar un hipervínculo / fuente informativo con el reclamo de Gelman?
Jim
@Jim Claro, es el periódico: projecteuclid.org/euclid.ba/1340371048
Antes del