¿Qué es exactamente el alfa en la distribución de Dirichlet?

26

Soy bastante nuevo en las estadísticas bayesianas y me encontré con una medida de correlación corregida, SparCC , que utiliza el proceso Dirichlet en el back-end de su algoritmo. He estado tratando de pasar por el algoritmo paso a paso para comprender realmente lo que está sucediendo, pero no estoy seguro de qué hace exactamente el alphaparámetro vectorial en una distribución Dirichlet y cómo normaliza el alphaparámetro vectorial.

La aplicación está en Pythonuso NumPy: https://docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html

Los documentos dicen:

alpha: array Parámetro de la distribución (dimensión k para muestra de dimensión k).

Mis preguntas:

  1. ¿Cómo alphasafecta la distribución ?;

  2. ¿Cómo se alphasnormalizan? y

  3. ¿Qué pasa cuando alphasno son enteros?

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Reproducibility
np.random.seed(0)

# Integer values for alphas
alphas = np.arange(10)
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# Dirichlet Distribution
dd = np.random.dirichlet(alphas) 
# array([ 0.        ,  0.0175113 ,  0.00224837,  0.1041491 ,  0.1264133 ,
#         0.06936311,  0.13086698,  0.15698674,  0.13608845,  0.25637266])

# Plot
ax = pd.Series(dd).plot()
ax.set_xlabel("alpha")
ax.set_ylabel("Dirichlet Draw")

ingrese la descripción de la imagen aquí

O.rka
fuente
66
¿Tienes problemas con la entrada de Wikipedia en esta distribución ?
Xi'an
2
Disculpas, no creo que lo haya redactado correctamente. Entiendo qué es una distribución de probabilidad / pdf / pmf pero estaba confundido sobre cómo estaba ocurriendo la normalización. Desde la wikipedia, parece que la normalización se produce a través de las funciones gamma después de . He escuchado que se conoce como una distribución sobre distribuciones y es difícil ver eso en las ecuaciones de wikipedia. Xyoα-1
O.rka
1
Si normaliza los alfa, obtiene la media de la distribución. Si normaliza la distribución, se asegura de que su integral sobre su soporte sea igual a 1 y que, por lo tanto, sea una distribución de probabilidad válida.
Eskapp
1
La distribución de Dirichlet es una distribución sobre el simplex, por lo tanto, una distribución sobre distribuciones de soporte finito. Si apunta a una distribución sobre distribuciones continuas, debe mirar el proceso de Dirichlet.
Xi'an

Respuestas:

67

La distribución de Dirichlet es una distribución de probabilidad multivariada que describe variables X 1 , ... , X k , de modo que cadak2X1,,Xk yN i = 1 x i = 1 , que está parametrizado por un vector de parámetros con valores positivos α = ( α 1 , ... , α k ) . Los parámetrosnoxi(0,1)i=1Nxi=1α=(α1,,αk)tienen que ser enteros, solo necesitan ser números reales positivos. No están "normalizados" de ninguna manera, son parámetros de esta distribución.

La distribución de Dirichlet es una generalización de la distribución beta en múltiples dimensiones, por lo que puede comenzar aprendiendo sobre la distribución beta. Beta es una distribución univariada de una variable aleatoria parametrizada por los parámetros α y β . La buena intuición al respecto surge si recuerdas que es un conjugado anterior para la distribución binomial y si asumimos un beta previo parametrizado por α y β para el parámetro de probabilidad p de la distribución binomial , entonces la distribución posterior de pX(0,1)αβαβpptambién es una distribución beta parametrizada por y β = β + número de fracasos . Por lo tanto, puede pensar en α y β como pseudocuentas (no necesitan ser enteros) de éxitos y fracasos (consulte también este hilo ).α=α+number of successesβ=β+number of failuresαβ

En el caso de la distribución de Dirichlet, es un conjugado previo para la distribución multinomial . Si en el caso de la distribución binomial podemos pensar en ella en términos de dibujar bolas blancas y negras con reemplazo de la urna, entonces en el caso de la distribución multinomial estamos dibujando con bolas de reemplazo que aparecen en k colores, donde cada uno de los colores de las bolas se pueden dibujar con probabilidades p 1 , ... , p k . La distribución de Dirichlet es un conjugado anterior para p 1 , ... , p k probabilidades y α 1Nkp1,,pkp1,,pk parámetros α k pueden considerarse comopseudocuentasde bolas de cada color asumidasa priori(pero también debe leer sobre lastrampas de dicho razonamiento). En el modelo de Dirichlet-multinomial α 1 , ... , se actualizan α k sumándolos con recuentos observados en cada categoría: α 1 + n 1 , ... , α k + n k de manera similar a la del modelo beta-binomial.α1,,αkα1,,αkα1+n1,,αk+nk

A mayor valor de , mayor "peso" de Xαi y la mayor cantidad de la "masa" total se le asigna (recuerde que en total debe ser x 1 + + x k = 1 ). Si todos los α i son iguales, la distribución es simétrica. Si α i < 1 , puede pensarse como anti-peso que empuja x i hacia los extremos, mientras que cuando es alto, atrae x i hacia algún valor central (central en el sentido de que todos los puntos se concentran a su alrededor,noXix1++xk=1αiαi<1xixien el sentido de que es simétricamente central). Si , entonces los puntos están distribuidos uniformemente.α1==αk=1

Esto se puede ver en los gráficos a continuación, donde puede ver distribuciones trivariadas de Dirichlet (desafortunadamente, podemos producir gráficos razonables solo hasta tres dimensiones) parametrizados por (a) , (b) α 1 = α 2α1=α2=α3=1 , (c) α 1 = 1 , α 2 = 10 , α 3 = 5 , (d) α 1 = α 2 = α 3α1=α2=α3=10α1=1,α2=10,α3=5 .α1=α2=α3=0.2

Four different samples from Dirichlet distributions

La distribución de Dirichlet a veces se denomina "distribución sobre distribuciones" , ya que puede considerarse como una distribución de probabilidades en sí. Observe que dado que cada y k i = 1 x i = 1 , entonces x i son consistentes con el primer y segundo axiomas de probabilidad . Por lo tanto, puede usar la distribución de Dirichlet como una distribución de probabilidades para eventos discretos descritos por distribuciones como categóricas o multinomiales . Esxi(0,1)i=1kxi=1xino es cierto que sea una distribución sobre cualquier distribución, por ejemplo, no está relacionada con las probabilidades de variables aleatorias continuas, o incluso algunas discretas (por ejemplo, una variable aleatoria distribuida de Poisson describe las probabilidades de observar valores que son números naturales, por lo tanto, para usar una distribución de Dirichlet sobre sus probabilidades, necesitaría un número infinito de variables aleatorias ).k

Tim
fuente
2
Explicación increíble
O.rka
14

Descargo de responsabilidad: nunca antes había trabajado con esta distribución. Esta respuesta se basa en este artículo de Wikipedia y mi interpretación del mismo.


La distribución de Dirichlet es una distribución de probabilidad multivariada con propiedades similares a la distribución Beta.

El PDF se define de la siguiente manera:

{x1,,xK}1B(α)i=1Kxiαi1

con , x i( 0 , 1 )K2xi(0,1) y .i=1Kxi=1

Si nos fijamos en la distribución Beta estrechamente relacionada:

{x1,x2(=1x1)}1B(α,β)x1α1x2β1

Podemos ver que estas dos distribuciones son iguales si . Entonces basemos nuestra interpretación en eso primero y luego generalicemos a K > 2 .K=2K>2


En las estadísticas bayesianas, la distribución Beta se usa como conjugado antes de los parámetros binomiales (Ver distribución Beta ). El prior puede definirse como un conocimiento previo sobre y β (o en línea con la distribución de Dirichlet α 1 y α 2 ). Si algún ensayo binomial tiene éxitos A y fracasos B , la distribución posterior es la siguiente: α 1 , p o sαβα1α2AB y α 2 , p o s = αα1,pos=α1+A . (No resolveré esto, ya que esta es probablemente una de las primeras cosas que aprende con las estadísticas bayesianas).α2,pos=α2+B

Entonces, la distribución Beta representa una distribución posterior en y x 2 ( = 1 - x 1 ) , que puede interpretarse como la probabilidad de éxitos y fracasos, respectivamente, en una distribución binomial. Y cuantos más datos ( A y B ) tenga, más estrecha será esta distribución posterior.x1x2(=1x1)AB


K=2KK=2Kxi

αiα1α2xi

Así que ahora para llegar a sus preguntas:

¿Cómo alphasafecta la distribución?

xi(0,1)i=1Kxi=1αiKi=1Kαixi, o las probabilidades para cada uno de los resultados. Esto significa que la densidad estará más concentrada.

¿Cómo se alphasnormalizan?

B(α)

B(α)=i=1KΓ(αi)Γ(i=1Kαi)

K=2

B(α1,α2)=Γ(α1)Γ(α2)Γ(α1+α2)

Esto se extiende a

si(α)=Γ(α1)Γ(α2)...Γ(αK)Γ(α1+α2++αK)

¿Qué sucede cuando los alfas no son enteros?

The interpretation doesn't change for αyo>1, but as you can see in the image I linked before, if αyo<1 la masa de la distribución se acumula en los bordes del rango para Xyo. K por otro lado tiene que ser un número entero y K2.

JAD
fuente
1
Thanks for this. Your explanation was super useful. I wish I could have marked both of them as correct.
O.rka