¿Cuál es la aproximación normal de la distribución multinomial?

Respuestas:

21

Puede aproximarlo con la distribución normal multivariada de la misma manera que la distribución binomial se aproxima mediante la distribución normal univariada. Consulte los elementos de la teoría de la distribución y la distribución multinomial, páginas 15-16-17.

Sea el vector de sus probabilidades. Entonces, el vector medio de la distribución normal multivariante es . La matriz de covarianza es una matriz simétrica . Los elementos diagonales son en realidad la varianza de 's; es decir, , . El elemento fuera de la diagonal en la i-ésima fila y jth columna es , donde no es igual a .n p = ( n p 1 , n p 2 , . . . , N p k ) k × k X i n p i ( 1 - p i ) i = 1 , 2 ... , k Cov ( X i , X jP=(p1,...,pk)np=(np1,np2,...,npk)k×kXinpi(1pi)i=1,2...,k i jCov(Xi,Xj)=npipjij

Stat
fuente
1
Echa un vistazo a la segunda referencia.
Estadísticas
3
Stat, para que esta respuesta pueda sostenerse por sí misma (y ser resistente a la pudrición del enlace), ¿te importaría dar un resumen de la solución?
whuber
44
¿Esto necesita una corrección de continuidad? ¿Cómo lo aplicarías?
Jack Aidley
2
La matriz de covarianza no es definida positiva, sino más bien semi-definida positiva, y no es de rango completo. Esto hace que la distribución multinormal resultante sea indefinida. Este es el problema que enfrenté. ¿Alguna idea de cómo manejarlo?
Mohammad Alaggan el
2
@ M.Alaggan: Las matrices de media / covarianza definidas aquí tienen un problema menor: para una distribución multinomial con variables, la normal multivariada equivalente tiene variables. Esto es evidente en el ejemplo binomial simple, que es aproximado por la distribución normal (ordinaria). Para una mayor discusión, véase el Ejemplo 12.7 de los elementos de distribución Theory . k - 1kk1
MS Dousti
1

La densidad dada en esta respuesta es degenerada, por lo que utilicé lo siguiente para calcular la densidad que resulta de la aproximación normal:

Hay un teorema que dice dada una variable aleatoria , para un vector -dimensional con y , eso;X=[X1,,Xm]TMultinom(n,p)mpipi=1iXi=n

Xdndiag(u)Q[Z1Zm10]+[np1npm],

para grande , dado;n

  • un vector con ;uui=pi
  • variables aleatorias para y;ZiN(0,1)i=1,,m1
  • una matriz ortogonal con la columna final .Qu

Es decir, con cierta reorganización, podemos calcular una distribución normal multivariada dimensional para los primeros componentes de (que son los únicos componentes interesantes porque es la suma de los otros).m1m1XXm

Un valor adecuado de la matriz es con , es decir, una transformación particular del familia.QI2vvTvi=(δimui)/2(1um)

Si se restringe el lado izquierdo de los primeros filas, y restringir a sus primeros filas y columnas (denotar estos y , respectivamente) a continuación:m1Qm1m1XX^QQ^

X^dndiag(u^)Q^[Z1Zm1]+[np1npm1]N(μ,nΣ),

para grande , donde;n

  • u^ denota los primeros términos de ;m1u
  • la media es , y;μ=[nortepag1,...,nortepagmetro-1]T
  • la matriz de covarianza con .norteΣ=norteUNAUNATUNA=diag(tu^)Q^

El lado derecho de esa ecuación final es la densidad no degenerada utilizada en el cálculo.

Como se esperaba, cuando conecta todo, obtiene la siguiente matriz de covarianza:

(norteΣ)yoj=nortepagyopagj(δyoj-pagyopagj)

para , que es exactamente la matriz de covarianza en la respuesta original restringida a sus primeras filas y columnas.yo,j=1,...,metro-1m - 1 m - 1metro-1metro-1

Esta entrada de blog fue mi punto de partida.

esteticista
fuente
1
Otro recurso útil son los enlaces provistos en: stats.stackexchange.com/questions/2397/…
stephematician
1
Buena respuesta (+1) --- Tenga en cuenta que puede incrustar enlaces con la sintaxis [textual description](hyperlink). Me he tomado la libertad de editar esta respuesta para insertar sus enlaces.
Ben - Restablece a Monica el