Distribución asintótica del multinomio

10

Estoy buscando la distribución limitante de la distribución multinomial sobre los resultados d. IE, la distribución de lo siguiente

limnn12Xn

Donde Xn es una variable aleatoria de valor vectorial con densidad fn(x) para x modo que ixi=n , xiZ,xi0 y 0 para todos los demás x , donde

fn(x)=n!i=1dpixixi!

Encontré una forma en el Teorema "Todas las estadísticas" de Larry Wasserman 14.6, página 237, pero para limitar la distribución da Normal con una matriz de covarianza singular, por lo que no estoy seguro de cómo normalizar eso. Podría proyectar el vector aleatorio en el espacio dimensional (d-1) para hacer que la matriz de covarianza sea de rango completo, pero ¿qué proyección usar?

Actualización 11/5

Ray Koopman tiene un buen resumen del problema del gaussiano singular. Básicamente, la matriz de covarianza singular representa una correlación perfecta entre las variables, que no es posible representar con un gaussiano. Sin embargo, uno podría obtener una distribución gaussiana para la densidad condicional, condicionada por el hecho de que el valor del vector aleatorio es válido (los componentes se suman a n en el caso anterior).

La diferencia para el gaussiano condicional es que el inverso se reemplaza por pseudoinverso, y el factor de normalización usa "producto de valores propios distintos de cero" en lugar de "producto de todos los valores propios". Ian Frisce da enlace con algunos detalles.

También hay una manera de expresar el factor de normalización del gaussiano condicional sin referirse a los valores propios, aquí hay una derivación

Yaroslav Bulatov
fuente
¿Qué quiere decir exactamente con limitar la distribución en este caso?
Robby McKilliam
es decir, la que se obtiene a partir del límite central teorema, que me Actualizar datos
Yaroslav Bulatov
1
A lo que se refiere es a la distribución asintótica del estimador de máxima verosimilitud de un multinomio. Además, la primera ecuación debe ser n ^ {- 1}, no n ^ {- 1/2}.
Simon Byrne
1
En la notación anterior, para d = 2, X_n es el número de caras después de n lanzamientos de monedas, por lo que es X_n / sqrt (n) lo que se acerca a Normal, no X_n / n, ¿no?
Yaroslav Bulatov
1
Sí tienes razón. Solo me estaba confundiendo a mí mismo.
Simon Byrne

Respuestas:

6

La covarianza sigue siendo definida no negativa (por lo que es una distribución normal multivariada válida ), pero no definida positiva: lo que esto significa es que (al menos) un elemento del vector aleatorio es una combinación lineal de los otros.

Como resultado, cualquier sorteo de esta distribución siempre estará en un subespacio de . Como consecuencia, esto significa que no es posible definir una función de densidad (ya que la distribución se concentra en el subespacio: piense en la forma en que una normal univariada se concentrará en la media si la varianza es cero).Rd

Sin embargo, como lo sugiere Robby McKilliam, en este caso puede soltar el último elemento del vector aleatorio. La matriz de covarianza de este vector reducido será la matriz original, con la última columna y fila eliminada, que ahora será positiva definida y tendrá una densidad (este truco funcionará en otros casos, pero debe tener cuidado con qué elemento se cae, y es posible que deba soltar más de uno).

Simon Byrne
fuente
Lo que es un poco insatisfactorio es la libertad de elección, para obtener una densidad válida necesito solicitar la distribución de A x donde A es una matriz de rango d-1 (d) x (d-1). ¿El error de aproximación CLT para n finito será equivalente para todas las opciones de A? Eso no está claro para mí
Yaroslav Bulatov
1
Sí, el error siempre debe ser el mismo. Tenga en cuenta que el último elemento del vector depende funcionalmente de los otros elementos (d-1) (tanto en la muestra finita como en los casos asintóticos).
Simon Byrne
No es que el "último" elemento sea dependiente, el problema de Yaroslav es que no le gusta la idea de elegir qué elemento dejar caer. Estoy de acuerdo con la respuesta que ha dado, pero también creo que aquí se requiere un poco más de reflexión y cuidado.
Robby McKilliam el
@Yaroslav: Quizás sería bueno tener una idea de qué aplicación tiene en mente aquí, porque en esta etapa hay potencialmente muchas respuestas a su pregunta.
Robby McKilliam
1
Robby: la aplicación que tenía en mente está aquí mathoverflow.net/questions/37582/... Básicamente, las integrales de Gauss sugeridas por CLT brindan una aproximación extremadamente buena a sumas de coeficientes binomiales (para n pequeña, ¡incluso mejor que integrar directamente la representación Gamma!), así que estaba viendo si puedo hacer algo similar para obtener sumas aproximadas de coeficientes multinomiales, que necesito para obtener límites de error no asintóticos para varios instaladores (como, probabilidad máxima)
Yaroslav Bulatov,
2

No hay ningún problema inherente con la covarianza singular aquí. Su distribución asintótica es la normal singular. Ver http://fedc.wiwi.hu-berlin.de/xplore/tutorials/mvahtmlnode34.html que da la densidad del singular normal.

Ian Fiske
fuente
Técnicamente, el problema es que la matriz de covarianza singular significa que algún subconjunto de variables está perfectamente correlacionado, por lo que la densidad de probabilidad debería ser exactamente 0 en algunas áreas, pero eso no es posible con un gaussiano. Una solución es mirar la densidad condicional, condicionada por el hecho de que la variable aleatoria se encuentra en una región factible. Esto se parece a lo que están haciendo en el enlace. ¿Nunca escuché el término "G-inverso", supongo que es pseudo-inverso de Penrose-Moore?
Yaroslav Bulatov el
Si bien es cierto que un gaussiano d-dimensional convencional tiene soporte en todos , el gaussiano singular no. G-inversa es inversa generalizada, y sí, creo que la definición de Penrose-Moore funciona aquí. Creo que hay un CLT para covarianzas singulares, indicando como se esperaba, convergencia en la distribución al CLT singular, aunque no puedo encontrar una referencia en este momento. d
Ian Fiske el
1

Me parece que la matriz de covarianza de Wasserman es singular, para ver, multiplíquela por un vector de unos, es decir, de longitud .[ 1 , 1 , 1 , ... , 1 ] dd[1,1,1,,1]d

Wikipedia da la misma matriz de covarianza de todos modos. Si nos limitamos a una distribución binomial, el teorema del límite central estándar nos dice que la distribución binomial (después de la escala apropiada) converge a la normal a medida que crece (vea wikipedia nuevamente ). Aplicando ideas similares, debería ser capaz de demostrar que un mulinomial a escala apropiada convergerá en distribución a la normal multivariada, es decir, cada distribución marginal es solo un binomio y converge a la distribución normal, y se conoce la varianza entre ellas.n

Por lo tanto, estoy muy seguro de que encontrará que la distribución de converge a la normal multivariada con media cero y covarianza donde es la covarianza matriz del multinomio en cuestión y es el vector de probabilidades . C

Xnnpn
Cp[p1,,pd]
Cn
Cp[p1,,pd]
Robby McKilliam
fuente
1
pero la matriz de covarianza de multinomial en cuestión es singular, lo mostró a sí mismo ...
Yaroslav Bulatov
Oh, veo tu problema! Uno de los elementos, digamos, el th es completamente dependiente de los otros. Probablemente, si corta la última fila y columna de , obtendrá que se distribuyen normalmente, pero tendré que pensarlo. ¡Seguramente esto ya está resuelto en alguna parte! C [ p 1 , p 2 , ... , p d - 1 ]dC[p1,p2,,pd1]
Robby McKilliam
Una sugerencia que encontré es seguir usando un gaussiano, pero usar pseudo-inverso en lugar de inverso y "producto de valores propios distintos de cero" en lugar del determinante. Para d = 2, esto parece dar la forma de densidad correcta, pero el factor de normalización está desactivado
Yaroslav Bulatov
1

¿No es el caso quepara todo donde es la matriz de covarianza multinomial con la -ésima fila y columna eliminadas? Como este es el caso, no entiendo lo que quiere decir con "libertad de elección" ya que cualquier "elección" es equivalente.i , j S - i i|Si|=|Sj|i,jSii

jvdillon
fuente
Esas matrices no son iguales, aquí está la matriz de covarianza yaroslavvb.com/upload/multinomial-covariance-matrix.png
Yaroslav Bulatov
Sí, esta es de hecho la matriz de covarianza. Mi punto era descartar cualquier resultado de columna y fila en el mismo término de normalización para el gaussiano. Tal vez me estoy perdiendo algo obvio?
jvdillon
Ah ... no noté el signo determinante. Hm ... parecen ser iguales en algunos ejemplos que probé, ¿hay una prueba simple de esto? Sin embargo, los valores propios no son iguales. La motivación para la pregunta era averiguar si el teorema del límite central le da el mismo error de aproximación para finito, independientemente de qué dist multinomial. componente que se caen
Yaroslav Bulatov
Probablemente la forma más fácil de convencerse de que es y enchufe que por en . p i Spi=1jipjpiS
jvdillon
Por cierto, me gusta su aplicación de esta idea, de ahí mi interés en responder.
jvdillon