En su página wiki , los desarrolladores del estado de Stan:
Algunos principios que no nos gustan: invariancia, Jeffreys, entropía
En cambio, veo muchas recomendaciones de distribución normal. Hasta ahora utilicé métodos bayesianos que no dependían del muestreo, y me alegré de haber entendido por qué fue una buena opción para las probabilidades binomiales.
Respuestas:
Este es, por supuesto, un conjunto diverso de personas con una gama de opiniones que se juntan y escriben un wiki. Resumo que sé / entiendo con algunos comentarios:
Elegir su previo basado en la conveniencia computacional es una justificación insuficiente. Por ejemplo, usar una Beta (1/2, 1/2) únicamente porque permite la actualización del conjugado no es una buena idea. Por supuesto, una vez que llegue a la conclusión de que tiene buenas propiedades para el tipo de problema en el que trabaja, está bien y podría elegir una opción que facilite la implementación. Hay muchos ejemplos, donde las convenientes opciones predeterminadas resultan problemáticas (ver Gamna (0.001, 0.001) antes que permite el muestreo de Gibbs).
Con Stan, a diferencia de WinBUGS o JAGS, no hay una ventaja particular para conjugar (condicionalmente) anteriores. Por lo tanto, podría ignorar el aspecto computacional. Sin embargo, no del todo, porque con antecedentes muy pesados (o antecedentes inadecuados) y datos que no identifican bien los parámetros, se encuentra con problemas (no es realmente un problema específico de Stan, pero Stan es bastante bueno para identificar estos problemas y advertir al usuario en lugar de muestrear felizmente)
Los antecedentes de Jeffreys y otros de "baja información" a veces pueden ser inadecuados o ser un poco difíciles de comprender en grandes dimensiones (no importa derivarlos) y con datos escasos. Puede ser que esto haya causado problemas con demasiada frecuencia para que los autores nunca se sientan cómodos con ellos. Una vez que trabajas en algo, aprendes más y te sientes cómodo, de ahí el cambio de opinión ocasional.
En la configuración de datos dispersos, lo anterior realmente importa y si puede especificar que los valores totalmente inverosímiles para un parámetro son inverosímiles, esto ayuda mucho. Esto motiva la idea de antecedentes poco informativos, no antecedentes verdaderamente informativos, sino aquellos con mayor apoyo a valores plausibles.
De hecho, podría preguntarse por qué uno se molesta con antecedentes no informativos, si tenemos muchos datos que identifican los parámetros realmente bien (uno podría usar la máxima probabilidad). Por supuesto, hay muchas razones (evitar patologías, obtener la "forma real" de los posteriores, etc.), pero en situaciones de "muchos datos" parece no haber un argumento real contra los antecedentes poco informativos.
fuente
No proporcionan ninguna justificación científica / matemática para hacerlo. La mayoría de los desarrolladores no trabajan en este tipo de antecedentes, y prefieren utilizar prioritarios más pragmáticos / heurísticos, como los prior normales con grandes variaciones (que pueden ser informativos en algunos casos). Sin embargo, es un poco extraño que estén contentos de usar versiones anteriores de PC, que se basan en Entropía (divergencia KL), después de que comenzaron a trabajar en este tema.
Un fenómeno similar ocurrió con WinBUGS , cuando los desarrolladores recomendaron el como un previo no informativo para los parámetros de precisión, ya que se asemeja a la forma del Jeffreys anterior. Este previo se convirtió en el previo predeterminado para los parámetros de precisión. Más tarde, se demostró (¡ por Gelman! ) Que pueden ser muy informativos.Gamma(0.001,0.001)
fuente