Básicamente estoy aprendiendo sobre la asignación de Dirichlet latente. Estoy viendo un video aquí: http://videolectures.net/mlss09uk_blei_tm/ y me quedé atrapado en el minuto 45 cuando comenzó a explicar sobre el muestreo de la distribución.
También intenté consultar un libro de aprendizaje automático que no tiene una introducción detallada sobre la distribución de Dirichelt. En el libro que estoy leyendo, se menciona un ejemplo sobre el muestreo de "vectores de probabilidad" de la distribución de Dirichlet, pero ¿qué significa eso?
Entiendo el muestreo de una distribución como obtener valores aleatorios para las variables aleatorias de acuerdo con la distribución. Deje que p_X, Y (x, y) pero el pmf de cualquier distribución, el muestreo de esta distribución significa que obtengo un valor aleatorio (x, y) (es decir, valores aleatorios para x e y). Para obtener la probabilidad de obtener el evento (X = x AND Y = y) evaluamos el pmf de la distribución ... por lo que obtenemos solo un número. ¡Pero qué son los "vectores de probabilidad" aquí!
Adjunto una captura de pantalla para el libro. ¡Realmente espero que puedas ayudar!
fuente
Respuestas:
Una distribución de Dirichlet a menudo se usa para categorizar probabilísticamente los eventos entre varias categorías. Supongamos que los eventos climáticos toman una distribución Dirichlet. Entonces podríamos pensar que el clima de mañana tiene una probabilidad de sol igual a 0.25, una probabilidad de lluvia igual a 0.5 y una probabilidad de nieve igual a 0.25. La recopilación de estos valores en un vector crea un vector de probabilidades.
Otra forma de pensar sobre una distribución de Dirichlet es el proceso de romper un palo. Imagine un palo de unidad de longitud. Rompa el palo en cualquier lugar y conserve una de las dos piezas. Luego rompa la pieza restante en dos piezas y continúe esto todo el tiempo que desee. Todas las piezas juntas deben sumar la longitud de la unidad, y la asignación de piezas de diferentes longitudes a diferentes eventos representa la probabilidad de ese evento.
Si está familiarizado con la distribución beta, la distribución Dirichlet podría ser aún más clara. Una distribución beta a menudo se usa para describir una distribución de probabilidades de eventos dicotómicos, por lo que está restringida al intervalo unitario. Por ejemplo, para un ensayo de Bernoulli, solo hay un parámetro describe la probabilidad de un "éxito". A menudo pensamos en como algo fijo, pero si no estamos seguros del valor "verdadero" de , podríamos pensar en una distribución de todos los s posibles , con una mayor probabilidad de aquellos que consideramos más plausibles, por lo que quizás , dondeθ θ θ θ θ∼B(α,β) α>β β>α concentra más de la masa cerca de 0.
Uno podría objetar que la distribución beta solo describe la probabilidad de una probabilidad única, es decir, que , que es un número escalar. Pero tenga en cuenta que la distribución beta está describiendo resultados dicotómicos . Entonces, al aplicar el segundo axioma de Kolmogorov, también sabemos que también. Recolectar estos resultados en un vector nos da un vector de probabilidades.P(θ<0.25)=0.5 P(θ≥0.25)=0.5
Ampliar la distribución beta en tres o más categorías nos da la distribución Dirichlet; de hecho, el PDF del Dirichlet para dos grupos es exactamente el mismo que la distribución beta.
fuente