Entonces esta pregunta es un poco desordenada, ¡pero incluiré gráficos coloridos para compensar eso! Primero los antecedentes y luego la (s) pregunta (s).
Fondo
Digamos que tiene una distribución multinomial dimensional con probailitas iguales sobre las categorías. Sea los recuentos normalizados ( ) de esa distribución, es decir:
Ahora la distribución sobre tiene soporte sobre -simplex pero con pasos discretos. Por ejemplo, con esta distribución tiene el siguiente soporte (los puntos rojos):
Otra distribución con soporte similar es la distribución -dimensional , es decir, una distribución uniforme sobre la unidad simplex. Por ejemplo, aquí hay sorteos aleatorios de un 3-dimesional :Dirichlet ( 1 , … , 1 ) Dirichlet ( 1 , 1 , 1 )
Ahora tenía la idea de que la distribución de de la distribución podría caracterizarse como un dibujo de que están discretizadas para el soporte discreto de . La discretización que tenía en mente (y eso parece funcionar bien) es tomar cada punto en el símplex y "redondearlo" al punto más cercano que esté en el soporte de . Para el simplex tridimensional se obtiene la siguiente partición donde los puntos en cada área coloreada deben "redondearse" al punto rojo más cercano:
Como la distribución de Dirichlet es uniforme, la densidad / probabilidad resultante para cada uno de los puntos es proporcional al área / volumen que se "redondea" a cada punto. Para los casos bidimensionales y tridimensionales, estas probabilidades son:
( Estas probabilidades son de simulaciones de Monte Carlo )
Entonces parece que, al menos para 2 y 3 dimensiones, la distribución de probabilidad resultante de discretizar de esta manera particular es la misma que la distribución de probabilidad para . Ese es el resultado normalizado de una distribución . También probé con 4 dimensiones y parece funcionar allí.π Multinomial ( 1 / n , … , 1 / n )
Pregunta (s)
Entonces mi pregunta principal es:
Al discretizar un Dirichlet uniforme de esta manera particular, ¿la relación con un cumple para otras dimensiones? ¿La relación se sostiene en absoluto? (Solo he intentado esto usando la simulación de Monte Carlo ...)
Además me pregunto:
- Si esta relación se mantiene, ¿es un resultado conocido? ¿Y hay alguna fuente que pueda citar para esto?
- Si esta discretización de un Dirichlet uniforme no tiene esta relación con el Multinomial. ¿Hay alguna construcción similar que tenga?
Algún contexto
Mi razón para hacer esta pregunta es que estoy mirando la similitud entre el Bootstrap no paramétrico y el Bootstrap Bayesiano, y luego surgió esto. También he notado que el patrón en las áreas coloreadas en el simplex 3-dimesional anterior parece (y debería ser) un diagrama de Voronoi. Una forma (espero) de que pueda pensar en esto es como una secuencia del Triángulo / Simpex de Pascal ( http://www.math.rutgers.edu/~erowland/pascalssimplices.html ). Donde el tamaño de las áreas coloreadas sigue la segunda fila del triángulo de Pascal en el caso de 2-d, la tercera fila del tetraedro de Pascal en el caso de 3-d, y así sucesivamente. Esto explicaría la conexión con la distribución multinomial, pero aquí estoy realmente en aguas profundas ...
fuente
Respuestas:
Esas dos distribuciones son diferentes para cada .n≥4
Notación
Voy a reescalar su simplex por un factor , para que los puntos de la red tengan coordenadas enteras. Esto no cambia nada, solo creo que hace que la notación sea un poco menos engorrosa.n
Sea el simple ( n - 1 ) , dado como el casco convexo de los puntos ( n , 0 , ... , 0 ) , ..., ( 0 , ... , 0 , n ) en R n . En otras palabras, estos son los puntos donde todas las coordenadas son no negativas, y donde las coordenadas suman n .S (n−1) (n,0,…,0) (0,…,0,n) Rn n
Deje denotar el conjunto de puntos de la red , es decir, aquellos puntos en S donde todas las coordenadas son integrales.Λ S
Si es un punto reticular, dejamos que V P denote su celda Voronoi , definida como aquellos puntos en S que están (estrictamente) más cerca de P que de cualquier otro punto en Λ .P VP S P Λ
Ponemos dos distribuciones de probabilidad que podemos poner en . Una de ellas es la distribución multinomial, donde el punto ( un 1 , . . . , Un n ) tiene la probabilidad de 2 - n n ! / ( a 1 ! ⋯ a n ! ) . El otro que llamaremos el modelo de Dirichlet , y se asigna a cada P ∈ lambda una probabilidad proporcional al volumen de V P .Λ (a1,...,an) 2−nn!/(a1!⋯an!) P∈Λ VP
Justificación muy informal.
Estoy afirmando que el modelo multinomial y el modelo de Dirichlet dan diferentes distribuciones en , siempre que n ≥ 4 .Λ n≥4
Para ver esto, considere el caso , y los puntos A = ( 2 , 2 , 0 , 0 ) y B = ( 3 , 1 , 0 , 0 ) . Afirmo que V A y V B son congruentes a través de una traducción del vector ( 1 , - 1 , 0 , 0 ) . Esto significa que V A y V Bn=4 A=(2,2,0,0) B=(3,1,0,0) VA VB (1,−1,0,0) VA VB tienen el mismo volumen y, por lo tanto, que y B tienen la misma probabilidad en el modelo de Dirichlet. Por otro lado, en el modelo multinomial, tienen diferentes probabilidades ( 2 - 4 ⋅ 4 ! / ( 2 ! 2 ! ) Y 2 - 4 ⋅ 4 ! / 3 ! ), Y se deduce que las distribuciones no pueden ser iguales.A B 2−4⋅4!/(2!2!) 2−4⋅4!/3!
El hecho de que y V B sean congruentes se deduce de la siguiente afirmación plausible pero no obvia (y algo vaga):VA VB
Reclamo plausible : La forma y el tamaño de solo se ven afectados por los "vecinos inmediatos" de P (es decir, aquellos puntos en Λ que difieren de P por un vector que se parece a ( 1 , - 1 , 0 , ... , 0 ) , donde el 1 y - 1 pueden estar en otros lugares)VP P Λ P (1,−1,0,…,0) 1 −1
Es fácil ver que las configuraciones de "vecinos inmediatos" de y B son las mismas, y luego se deduce que V A y V B son congruentes.A B VA VB
En el caso , podemos jugar el mismo juego, con A = ( 2 , 2 , n - 4 , 0 , … , 0 ) y B = ( 3 , 1 , n - 4 , 0 , … , 0 ) , por ejemplo.n≥5 A=(2,2,n−4,0,…,0) B=(3,1,n−4,0,…,0)
No creo que esta afirmación sea completamente obvia, y no voy a demostrarlo, en lugar de una estrategia ligeramente diferente. Sin embargo, creo que esta es una respuesta más intuitiva de por qué las distribuciones son diferentes para .n≥4
Prueba rigurosa
Tome y B como en la justificación informal anterior. Solo necesitamos demostrar que V A y V B son congruentes.A B VA VB
Dado , definiremos W P de la siguiente manera: W P es el conjunto de puntos ( x 1 , ... , x n ) ∈ S , para el cual max 1 ≤ i ≤ n ( a i - p i ) - min 1 ≤ i ≤ n ( a iP=(p1,…,pn)∈Λ WP WP (x1,…,xn)∈S . (De una manera más digerible: Sea v i = a i - p i . W P es el conjunto de puntos para los cuales la diferencia entre v i más alto y más bajoes menor que 1.)max1≤i≤n(ai−pi)−min1≤i≤n(ai−pi)<1 vi=ai−pi WP vi
Vamos a demostrar que .VP=WP
Paso 1
Reclamación: .VP⊆WP
Esto es bastante fácil: Supongamos que no es en W P . Sea v i = x i - p i , y suponga (sin pérdida de generalidad) que v 1 = max 1 ≤ i ≤ n v i , v 2 = min 1 ≤ i ≤ n v i . v 1 - v 2X=(x1,…,xn) WP vi=xi−pi v1=max1≤i≤nvi v2=min1≤i≤nvi Como ∑ n i = 1 v i = 0 , también sabemos que v 1 > 0 > v 2 .v1−v2≥1 ∑ni=1vi=0 v1>0>v2
Sea ahora . Dado que P y X tienen coordenadas no negativas, Q también lo tiene , y se deduce que Q ∈ S , y entonces Q ∈ Λ . Por otro lado, d i s t 2 ( X , P ) - d i s t 2Q=(p1+1,p2−1,p3,…,pn) P X Q Q∈S Q∈Λ . De este modo, X es al menos tan cerca de Q como para P , por lo que X ∉ V P . Esto muestra (al tomar complementos) quedist2(X,P)−dist2(X,Q)=v21+v22−(1−v1)2−(1+v2)2=−2+2(v1−v2)≥0 X Q P X∉VP .Vp⊆WP
Paso 2
Reclamación : Los son separados por pares.WP
Supongamos lo contrario. Deje que y Q = ( q 1 , ... , q n ) ser puntos distintos en Λ , y dejar que X ∈ W P ∩ W Q . Como P y Q son distintos y ambos en Λ , debe haber un índice i donde p i ≥ q i + 1 , y uno dondeP=(p1,…,pn) Q=(q1,…,qn) Λ X∈WP∩WQ P Q Λ i pi≥qi+1 . Sin pérdida de generalidad, suponemos que p 1 ≥ q 1 + 1 y p 2 ≤ q 2 - 1 . Reorganizando y sumando, obtenemos q 1 - p 1 + p 2 - q 2 ≥ 2 .pi≤qi−1 p1≥q1+1 p2≤q2−1 q1−p1+p2−q2≥2
Considere ahora los números y x 2 . Por el hecho de que X ∈ W P , tenemos x 1 - p 1 - ( x 2 - p 2 ) < 1 . Del mismo modo, X ∈ W Q implica que x 2 - q 2 - ( x 1 - q 1 ) < 1 . Sumando estos, obtenemos q 1 - px1 x2 X∈WP x1−p1−(x2−p2)<1 X∈WQ x2−q2−(x1−q1)<1 , y tenemos una contradicción.q1−p1+p2−q2<2
Paso 3
Hemos demostrado que , y que los W P son disjuntos. El V P cubre S hasta un conjunto de medida cero, y se deduce que W P = V P (hasta un conjunto de medida cero). [Dado que W P y V P están abiertos, en realidad tenemos W P = V P exactamente, pero esto no es esencial.]VP⊆WP WP VP S WP=VP WP VP WP=VP
Ahora, casi hemos terminado. Considere los puntos y B = ( 3 , 1 , n - 4 , 0 , … , 0 ) . Es fácil ver que W A y W B son congruentes y traducciones entre sí: la única forma en que podrían diferir es si el límite de S (que no sean las caras en las que AA=(2,2,n−4,0,…,0) B=(3,1,n−4,0,…,0) WA WB S A y ambos mienten) `` cortarían '' W A o W B pero no el otro. Pero para alcanzar esa parte del límite de S , tendríamos que cambiar una coordenada de A o B por al menos 1, lo que sería suficiente para garantizar que nos saque de W A y W B de todos modos. Por lo tanto, a pesar de que S se ve diferente de los puntos estratégicos A y B , las diferencias están demasiado lejos para ser captadas por las definiciones de W A y W B , y por lo tanto WB WA WB S A B WA WB S A B WA WB y W B son congruentes.WA WB
Entonces se deduce que y V B tienen el mismo volumen y, por lo tanto, el modelo de Dirichlet les asigna la misma probabilidad, a pesar de que tienen diferentes probabilidades en el modelo multinomial.VA VB
fuente