Supongamos que obtendré algunas muestras de una distribución binomial. Una forma de modelar mi conocimiento previo es con una distribución Beta con parámetros y . Según tengo entendido, esto es equivalente a haber visto "cabezas" veces en trial. Como tal, un buen atajo para hacer la inferencia bayesiana completa es usar como mi nuevo medio para la probabilidad de "cabezas" después de haber visto cabezas en pruebas .
Ahora suponga que tengo más de dos estados, por lo que obtendré algunas muestras de una distribución multinomial. Supongamos que quiero usar una distribución de Dirichlet con el parámetro como previo. Una vez más como un acceso directo que puedo tratar esto como un conocimiento previo del caso 's probabilidad de ser equivalente a , y si el evento I testigo veces en ensayos mi trasero para se convierte .
Ahora en el caso binomial, resulta que el conocimiento previo de "cabezas" que ocurren veces en ensayos es equivalente a "colas" que ocurren veces en ensayos. Lógicamente, no creo que pueda tener un mayor conocimiento de la probabilidad de "cara" que de "cola". Sin embargo, esto se vuelve más interesante con más de dos resultados. Si he dicho un dado de 6 lados, puedo imaginar que mi conocimiento previo del lado "1" es equivalente a 10 unos en 50 ensayos y mi conocimiento previo del lado "2" como equivalente a 15 dos en 100 ensayos.
Entonces, después de toda esa introducción, mi pregunta es ¿cómo puedo modelar adecuadamente ese conocimiento previo asimétrico en el caso multinomial? Parece que si no tengo cuidado, puedo obtener resultados ilógicos fácilmente debido a que la probabilidad / probabilidad total no se suma a 1. ¿Hay alguna forma de que todavía pueda usar el acceso directo de Dirichlet, o necesito sacrificar esto por completo y usar algunos otra distribución previa por completo?
Perdone cualquier confusión causada por posibles abusos en la notación o terminología anterior.
fuente
If I have say a 6-sided die, I can imagine my prior knowledge of side "1" being equivalent to 10 ones in 50 trials and my prior knowledge of side "2" as being equivalent to 15 twos in 100 trials.
¿Hay alguna razón especial por la que no desea unificar sus 'tamaños de muestra equivalentes' para " " y " " (es decir, y ) utilizando su mínimo común múltiplo? En este caso y .Respuestas:
Has formulado muy bien tu pregunta.
Creo que lo que está buscando aquí es un caso de modelado jerárquico. Y es posible que desee modelar varias capas de jerarquía (en este momento solo habla de anteriores). Tener otra capa de hiper-previos para los hiperparámetros le permite modelar las variabilidades adicionales en los hiperparámetros (ya que le preocupan los problemas de variabilidad de los hiperparámetros). También hace que su modelado sea flexible y robusto (puede ser más lento).
Específicamente en su caso, puede beneficiarse al tener antecedentes para los parámetros de distribución de Dirichlet (Beta es un caso especial). Esta publicación de Gelman habla sobre cómo imponer priors en los parámetros de distribución de Dirichlet. También cita uno de sus artículos en una revista de toxicología.
fuente