Sé que los anteriores no tienen por qué ser adecuados y que la función de probabilidad tampoco se integra en 1. Pero, ¿la parte posterior debe ser una distribución adecuada? ¿Cuáles son las implicaciones si es / no es?
Sé que los anteriores no tienen por qué ser adecuados y que la función de probabilidad tampoco se integra en 1. Pero, ¿la parte posterior debe ser una distribución adecuada? ¿Cuáles son las implicaciones si es / no es?
(Es algo sorprendente leer las respuestas anteriores, que se centran en la impropiedad potencial de la parte posterior cuando la anterior es adecuada, ya que, por lo que puedo decir, la pregunta es si la posterior tiene que ser adecuada ( es decir, integrable a uno) para ser un posterior apropiado (es decir, aceptable para la inferencia bayesiana).)
En las estadísticas bayesianas, la distribución posterior tiene que ser una distribución de probabilidad, de la cual se pueden derivar momentos como la media posterior y declaraciones de probabilidad como la cobertura de una región creíble, . Si el posterior no puede se normalizará en una densidad de probabilidad y la inferencia bayesiana simplemente no se puede realizar. El posterior simplemente no existe en tales casos.∫ f ( x | θ )π ( θ | x )
En realidad, (1) debe ser válido para todas las 's en el espacio muestral y no solo para la observada , de lo contrario, seleccionar lo anterior dependería de los datos . Esto significa que los anteriores como el anterior de Haldane,x , sobre la probabilidad de un binomio o una variable binomial negativa X no se pueden usar, ya que el posterior no es definido para x = 0 .
Sé de una excepción cuando uno puede considerar "posteriores incorrectos": David van Dyk y Xiao-Li Meng lo encuentran en "El arte del aumento de datos" . La medida incorrecta está sobre un llamado parámetro de trabajo modo que la observación es producida por el marginal de una distribución aumentada f ( x | θ ) = ∫ T y van Dyk y Meng ponen un prior inapropiado
En otra perspectiva, algo relacionada con la respuesta de eretmochelys , es decir, una perspectiva de la teoría de decisión bayesiana , un entorno en el que se produce (1) aún podría ser aceptable si condujera a decisiones óptimas. Es decir, si es una función de pérdida que evalúa el impacto del uso de la decisión δ , una decisión óptima bayesiana bajo el π anterior viene dada por δ ⋆ ( x ) = arg min δ ∫ L ( δ , θ ) f y todo lo que importa es que esta integral no está en todas partes (en δ ) infinita. Si (1) se mantiene o no es secundario para la derivación de, aunque las propiedades como la admisibilidad solo se garantizan cuando (1) se mantiene.
La distribución posterior no necesita ser adecuada, incluso si la anterior es adecuada. Por ejemplo, supongamos que tiene una Gamma anterior con forma 0.25 (que es adecuada), y modelamos nuestro dato como extraído de una distribución gaussiana con media cero y varianza . Supongamos que se observa que es cero. Entonces la probabilidad es proporcional ax v x p ( x | v ) v - 0.5 v v - 1.25 e - v , lo que hace que la distribución posterior de incorrecta, ya que es proporcional a . Este problema surge debido a la naturaleza rara de las variables continuas.
En palabras: la probabilidad predictiva previa de aquellos valores de muestra que hacen que el posterior sea incorrecto es igual a cero.
Moraleja de la historia: cuidado con los conjuntos nulos, pueden morder, por improbable que sea.
PD Como lo señaló el Prof. Robert en los comentarios, este razonamiento explota si lo anterior es incorrecto.
fuente
Cualquier "distribución" debe sumar (o integrarse) a 1. Puedo pensar algunos ejemplos en los que uno podría trabajar con distribuciones no normalizadas, pero me incomoda llamar a cualquier cosa que margina a cualquier cosa que no sea 1 una "distribución".
fuente
fuente