¿Inferencia bayesiana para la distribución multinomial con conocimiento previo asimétrico?

8

Supongamos que obtendré algunas muestras de una distribución binomial. Una forma de modelar mi conocimiento previo es con una distribución Beta con parámetros y . Según tengo entendido, esto es equivalente a haber visto "cabezas" veces en trial. Como tal, un buen atajo para hacer la inferencia bayesiana completa es usar como mi nuevo medio para la probabilidad de "cabezas" después de haber visto cabezas en pruebas .αβαα+βh+αn+α+βhn

Ahora suponga que tengo más de dos estados, por lo que obtendré algunas muestras de una distribución multinomial. Supongamos que quiero usar una distribución de Dirichlet con el parámetro como previo. Una vez más como un acceso directo que puedo tratar esto como un conocimiento previo del caso 's probabilidad de ser equivalente a , y si el evento I testigo veces en ensayos mi trasero para se convierte .αiαiαji hnih+αin+αj

Ahora en el caso binomial, resulta que el conocimiento previo de "cabezas" que ocurren veces en ensayos es equivalente a "colas" que ocurren veces en ensayos. Lógicamente, no creo que pueda tener un mayor conocimiento de la probabilidad de "cara" que de "cola". Sin embargo, esto se vuelve más interesante con más de dos resultados. Si he dicho un dado de 6 lados, puedo imaginar que mi conocimiento previo del lado "1" es equivalente a 10 unos en 50 ensayos y mi conocimiento previo del lado "2" como equivalente a 15 dos en 100 ensayos.αα+ββα+β

Entonces, después de toda esa introducción, mi pregunta es ¿cómo puedo modelar adecuadamente ese conocimiento previo asimétrico en el caso multinomial? Parece que si no tengo cuidado, puedo obtener resultados ilógicos fácilmente debido a que la probabilidad / probabilidad total no se suma a 1. ¿Hay alguna forma de que todavía pueda usar el acceso directo de Dirichlet, o necesito sacrificar esto por completo y usar algunos otra distribución previa por completo?

Perdone cualquier confusión causada por posibles abusos en la notación o terminología anterior.

Michael McGowan
fuente
If I have say a 6-sided die, I can imagine my prior knowledge of side "1" being equivalent to 10 ones in 50 trials and my prior knowledge of side "2" as being equivalent to 15 twos in 100 trials.¿Hay alguna razón especial por la que no desea unificar sus 'tamaños de muestra equivalentes' para " " y " " (es decir, y ) utilizando su mínimo común múltiplo? En este caso y . 1250100α1=20/ /100α2=15/ /100
Zhubarb
Le permite representar anteriores asimétricos al tiempo que garantizayo=1yo=6 6αyo=1
Zhubarb
Finalmente, este artículo de Kemp en al. Es muy relevante y divertido de leer.
Zhubarb
@Berkan Todavía no he leído el documento (¡aunque gracias!), Pero la razón por la que no unifiqué los tamaños de muestra es porque 20/100 no es lo mismo antes que 10/50, y ese hecho es muy importante para el razón por la que se hizo esta pregunta.
Michael McGowan
Porque tienes más confianza en el primero debido a un mayor equiv. ¿tamaño de la muestra?
Zhubarb

Respuestas:

2

Has formulado muy bien tu pregunta.

Creo que lo que está buscando aquí es un caso de modelado jerárquico. Y es posible que desee modelar varias capas de jerarquía (en este momento solo habla de anteriores). Tener otra capa de hiper-previos para los hiperparámetros le permite modelar las variabilidades adicionales en los hiperparámetros (ya que le preocupan los problemas de variabilidad de los hiperparámetros). También hace que su modelado sea flexible y robusto (puede ser más lento).

Específicamente en su caso, puede beneficiarse al tener antecedentes para los parámetros de distribución de Dirichlet (Beta es un caso especial). Esta publicación de Gelman habla sobre cómo imponer priors en los parámetros de distribución de Dirichlet. También cita uno de sus artículos en una revista de toxicología.

suncoolsu
fuente
Puedo ser más específico de modelado, pero no quiero adivinar aquí. Si elige modificar su pregunta, agregaré más detalles.
suncoolsu