Estimador de máxima probabilidad de distribución conjunta dado solo recuentos marginales

12

Sea una distribución conjunta de dos variables categóricas X , Y , con x , y { 1 , ... , K } . Digamos que se tomaron n muestras de esta distribución, pero solo se nos dan los recuentos marginales, es decir, para j = 1 , ... , K :pagX,yX,YX,y{1,...,K}nortej=1,...,K

Sj=yo=1norteδ(Xyo=l),Tj=yo=1norteδ(Yyo=j),

¿Cuál es el estimador de máxima verosimilitud para , dado S j , T j ? ¿Se sabe esto? ¿Computacionalmente factible? ¿Existen otros enfoques razonables para este problema que no sean ML?pagX,ySj,Tj

RS
fuente
2
Los márgenes realmente no contienen información * sobre la distribución conjunta (de hecho, este es el punto de las cópulas). * o al menos casi ninguna, obviamente los márgenes contienen al menos algo de información, ya que los recuentos interiores no pueden exceder los márgenes en los que ocurren. ¿Tiene en mente una distribución conjunta específica? ¿Por qué usaste la maximum-entropyetiqueta? ¿Estás buscando una solución de máxima entropía?
Glen_b -Reinstale a Monica el
No estoy muy familiarizado con las cópulas. ¿Se sostienen para el caso categórico también? ¿Qué significaría eso: que cada distribución conjunta con los mismos márgenes tendría la misma probabilidad? (Etiqueté la entropía máxima porque pensé que podría ser relevante).
RS
Aún no tenemos un modelo de distribución específico, por lo que no estamos realmente en condiciones de calcular . Hay numerosas posibilidades aquí. Existen cópulas para el caso categórico ordenado (si no es único), pero mi objetivo al plantearlo fue motivar por qué los marginales no eran muy informativos en general. Con respecto al caso del recuento categórico, Fisher trató los márgenes como poco informativos sobre la articulación, de ahí la prueba exacta de Fisher-Irwin. Si desea la máxima entropía, es probable que pueda obtener una solución de máxima entropía, pero no sé que va a ser muy informativo sobre ...PAG(XEl |θ)
Glen_b -Reinstate Mónica
(ctd) ... estructura. En los casos de EM o ML, creo que primero necesitará algún tipo de modelo, ya sea bivariado multinomial, bivariado hipergeométrico o algo con más estructura. Vea esta pregunta , donde el autor pone una referencia en una respuesta. Eso puede ser de ayuda.
Glen_b -Reinstala a Monica el
1
Me refería a una distribución multinomial bivariada general. La pregunta habla sobre el caso en el que se dan las sumas de la distribución y vemos muestras de la distribución conjunta. Aquí tenemos las sumas de la muestra. Creo que el problema está bien definido en el caso de ML (la solución puede no ser única pero no lo sé).
RS

Respuestas:

4

Este tipo de problema se estudió en el documento "Aumento de datos en tablas de contingencia de múltiples vías con totales marginales fijos" de Dobra et al (2006). Supongamos que denota los parámetros del modelo, que n denota la tabla de recuentos enteros no observados para cada par ( x , y ) , y que C ( S , T ) es el conjunto de tablas de enteros cuyos recuentos marginales son iguales ( S , T ) . Entonces la probabilidad de observar los recuentos marginales ( S , T ) es: p (θnorte(X,y)C(S,T)(S,T)(S,T) donde p ( n | θ ) es la distribución de muestreo multinomial. Esto define la función de probabilidad para ML, pero la evaluación directa no es factible excepto por pequeños problemas. El enfoque que recomiendan es MCMC, donde puede actualizar alternativamente n y θ

pag(S,TEl |θ)=norteC(S,T)pag(norteEl |θ)
pag(norteEl |θ)norteθtomando muestras de una distribución de propuesta y aceptando el cambio de acuerdo con el índice de aceptación de Metropolis-Hastings. Esto podría adaptarse para encontrar un máximo aproximado sobre usando Monte Carlo EM. θ

Un enfoque diferente usaría métodos variacionales para aproximar la suma sobre . Las restricciones marginales pueden codificarse como un gráfico de factores y la inferencia sobre θ podría llevarse a cabo utilizando la propagación de expectativas.norteθ

Para ver por qué este problema es difícil y no admite una solución trivial, considere el caso . Tomando S como las sumas de las filas y T como las sumas de las columnas, hay dos posibles tablas de recuento: [ 0 1 2 0 ]S=(1,2),T=(2,1)ST Por lo tanto la función de probabilidad es p(S,T | theta)=3 p 12 p 2 21 +6 p 11 p 21 p 22 El MLE para este problema es p x , Y = [ 0 1 / 3 2 / 3 0 ]

[0 0120 0][10 011]
pag(S,TEl |θ)=3pag12pag212+6 6pag11pag21pag22
pag^X,y=[0 01/ /32/ /30 0]
que corresponde a asumir la tabla de la izquierda. Por el contrario, la estimación que se podrían obtener por supuesto de independencia es que tiene un valor de probabilidad menor.
qX,y=[1/ /32/ /3][2/ /31/ /3]=[2/ /9 91/ /9 94 4/ /9 92/ /9 9]
Tom Minka
fuente
¿No es posible obtener una solución analítica?
Ben Kuhn
θθ={θX,y}(X,y)
No sospecharía que hubiera una solución analítica. Agregué un ejemplo para ilustrar esto.
Tom Minka
Gracias. ¿Quizás es verdad asintóticamente? Entonces, condicionar los totales de margen es lo mismo que condicionar las distribuciones de margen (después de la normalización), y la probabilidad logarítmica para cada tabla entera no observada es proporcional a su entropía. Tal vez algo con AEP entonces?
RS
1

Como ha señalado @Glen_b, esto no está suficientemente especificado. No creo que pueda usar la probabilidad máxima a menos que pueda especificar completamente la probabilidad.

Si estaba dispuesto a asumir la independencia, entonces el problema es bastante simple (por cierto, creo que la solución sería la solución de entropía máxima que se ha sugerido). Si no está dispuesto o no puede imponer una estructura adicional en su problema y aún desea algún tipo de aproximación a los valores de las celdas, puede utilizar los límites de la cópula Fréchet-Hoeffding . Sin suposiciones adicionales, no creo que pueda ir más allá.

F. Tusell
fuente
La probabilidad en esta lata sería multinomial. ¿Por qué es eso insuficiente?
RS
Según tengo entendido, la probabilidad es una función de los parámetros dados los datos. Aquí, no tiene valores para cada celda, solo los marginales, por lo tanto, no tiene una sola función de los parámetros que puede calcular, y mucho menos maximizar. En general, hay muchas configuraciones de celdas compatibles con los márgenes, y cada una daría una probabilidad diferente.
F. Tusell
1
pagpag
1

pagX,ypagX=ypagX,ypagy=XpagX,y

Lo incorrecto sigue:

pagX,yX,YS1=S2=T1=T2=10

pag=(120 00 012),pag=(14 414 414 414 4)

pagXpagy


pag=(unsiCre)0 0<unrepag=(0 0si+unC+unre-un)


X,Y

H(pag)=-X,ypagX,yIniciar sesiónpagX,yXpagX,y=pagyypagX,y=pagXsol(pag)=0 0solX(pag)=ypagX,y-pagXsoly(pag)=XpagX,y-pagy

H(pag)=kXYλksolk(pag)

solk

1-Iniciar sesiónpagX,y=λX+λypagX,y=mi1-λX-λy

XpagX,y=pagyypagX,y=pagXmi1/ /2-λX=pagXmi1/ /2-λy=pagy

pagX,y=pagXpagy.
Ben Kuhn
fuente
S1=S2=T1=T2=10pag[[10,0 0],[0 0,10]]2-20pag0 0un10PAGr[[un,10-un],[10-un,un]]104 4-20
Has calculado las probabilidades incorrectamente; por ejemplo, olvidó incluir los coeficientes binomiales. Pero tiene razón en que las dos matrices dan diferentes distribuciones conjuntas de recuentos marginales a pesar de que dan la misma distribución marginal de recuentos marginales. (¡Ay!) Lo pensaré más.
Ben Kuhn