Cómo elegir antes en la estimación de parámetros bayesianos

16

Conozco 3 métodos para hacer estimaciones de parámetros, ML, MAP y enfoque de Bayes. Y para el enfoque de MAP y Bayes, tenemos que elegir prioridades para los parámetros, ¿verdad?

Digamos que tengo este modelo , en el que son parámetros, para hacer la estimación utilizando MAP o Bayes, leí en el libro que sería mejor elegir un conjugado antes de , que es una probabilidad conjunta de , ¿verdad?p(x|α,β)p ( α , β ) α , βα,βp(α,β)α,β

Tengo 2 preguntas:

  1. ¿Tenemos otras opciones para elegir el anterior además de este conjugado?

  2. ¿Podemos elegir priors para y respectivamente como y , además de juntarlos en uno?β p ( α ) p ( β )αβp(α)p(β)

aguacate
fuente
1
Dependiendo de qué software usará, los anteriores ciertamente no tienen que estar conjugados con la función de probabilidad ... en primer lugar, debe asegurarse de que sus anteriores representen sus creencias anteriores sobre la distribución de los parámetros
Patrick Coulombe
Entonces, podría elegir priors respectivamente para los parámetros, ¿verdad? REALMENTE solo trato de entender la regresión lineal baysiana, no se considera ningún software específico
aguacate
1
Busque información previa , por ejemplo, aquí
Scortchi - Restablezca a Monica

Respuestas:

17

Como se indicó en el comentario, la distribución previa representa creencias previas sobre la distribución de los parámetros.

Cuando las creencias anteriores están realmente disponibles, puedes:

  • conviértalos en términos de momentos (por ejemplo, media y varianza) para ajustar una distribución común a estos momentos (por ejemplo, gaussiano si su parámetro se encuentra en la línea real, Gamma si se encuentra en ).R+
  • use su comprensión intuitiva de estas creencias para proponer una distribución previa dada y verifique si realmente se ajusta a su propósito y si no es sensible a las elecciones arbitrarias (realizar un análisis de robustez o sensibilidad)

Cuando no hay creencias previas explícitas disponibles, puede:

  • derivar (o simplemente usar si ya está disponible, un gran recurso es http://www.stats.org.uk/priors/noninformative/YangBerger1998.pdf ) un Jeffreys (por ejemplo, uniforme para un parámetro de ubicación) o una referencia previa (especialmente en caso de parámetros multivariados).
  • a veces, tales elecciones son imposibles o bastante difíciles de obtener y, en este caso, puede intentar elegir entre uno de los muchos "genéricos" débilmente informativos previos (por ejemplo, distribución de contracción uniforme para parámetros de escala del modelo jerárquico o -prior para regresión gaussiana) .sol

Dicho esto, no hay restricción para usar una articulación o un previo independiente ( Vs p ( a ) p ( b ) ). Como complemento, diría que, en mi humilde opinión, hay tres cosas importantes a tener en cuenta al elegir un previo:pag(un,si)pag(un)pag(si)

  • tenga cuidado de que su posterior sea integrable en casi todas partes (o apropiado), lo cual siempre es cierto si usa un anterior integrable (consulte ¿Necesita el posterior bayesiano una distribución adecuada? para obtener más detalles),
  • limite el soporte de su anterior solo si tiene mucha confianza en los límites de soporte (así que evite hacerlo).
  • y por último, pero no menos importante, asegúrese (la mayoría de las veces experimentalmente) de que su elección de lo anterior significa lo que desea expresar. En mi opinión, esta tarea es a veces la más crítica. Nunca olvidé que al hacer inferencia un prior no significa nada en sí mismo, hay que considerar el posterior (que es la combinación de prior y probabilidad).
peuhp
fuente
Muchas gracias, ¿podría recomendarme algunos tutoriales sobre cómo hacer este tipo de inferencia bayesiana?
aguacate
@loganecolss De nada, personalmente estuve un poco perdido hace unos meses y esta publicación es simplemente el resumen de mi autoestudio y estoy feliz si puede ayudar a alguien más. Con respecto a su pregunta, ¿qué quiere decir con "este tipo de inferencia bayesiana"?
peuhp
1
También estoy estudiando cosas de aprendizaje automático, conocía ML, pero este enfoque bayesiano de estimación de parámetros es nuevo para mí, espero que me puedan mostrar algo de material para aprender estimación e inferencia bayesiana, ;-)
aguacate
1
@loganecolss, este es un buen resumen de la inferencia MLE, MAP y Bayesiana. Y este enlace ofrece un buen resumen de cómo incorporar una inferencia bayesiana previa a una distribución binomial.
Zhubarb
Una elaboración menor: un prior propio representa un conjunto consistente de creencias sobre los parámetros. No tienen que ser tus creencias. De hecho, los modelos son a menudo más persuasivos cuando son de otros.
conjugateprior
1

También hay Bayes empíricos. La idea es ajustar lo anterior a los datos:

maxpag(z)pag(reEl |z)pag(z)rez

Si bien esto puede parecer incómodo al principio, en realidad hay relaciones con la longitud mínima de descripción. Esta es también la forma típica de estimar los parámetros del núcleo de los procesos gaussianos.

bayerj
fuente
0

Para responder las dos preguntas anteriores directamente:

  1. Tiene otras opciones para elegir prioritarios no conjugados que no sean prioritarios conjugados. El problema es que si elige anteriores no conjugados, no puede hacer una inferencia bayesiana exacta (en pocas palabras, no puede derivar una posterior de forma cerrada). Por el contrario, debe hacer una inferencia aproximada o utilizar métodos de muestreo como el muestreo de Gibbs, el muestreo de rechazo, MCMC, etc. para derivarlo posteriormente. El problema con los métodos de muestreo es que, intuitivamente, es como dibujar un elefante en la oscuridad tocándolo repetidamente, puede ser parcial e incompleto. La razón por la que las personas eligen no conjugado previo es que, con cierta probabilidad, la opción de conjugado previo es bastante limitada, o lo que es lo mismo, la mayoría no lo son.

  2. Sí, definitivamente puedes. Si α y β son independientes, que es la condición idealista, puede derivar su distribución conjunta por p (α) p (β). Si no son independientes, es posible que necesite calcular la probabilidad condicional y hacer integral para derivar la distribución conjunta.

talentcat
fuente