Sea una distribución conjunta de dos variables categóricas X , Y , con x , y ∈ { 1 , ... , K } . Digamos que se tomaron n muestras de esta distribución, pero solo se nos dan los recuentos marginales, es decir, para j = 1 , ... , K :
¿Cuál es el estimador de máxima verosimilitud para , dado S j , T j ? ¿Se sabe esto? ¿Computacionalmente factible? ¿Existen otros enfoques razonables para este problema que no sean ML?
maximum-entropy
etiqueta? ¿Estás buscando una solución de máxima entropía?Respuestas:
Este tipo de problema se estudió en el documento "Aumento de datos en tablas de contingencia de múltiples vías con totales marginales fijos" de Dobra et al (2006). Supongamos que denota los parámetros del modelo, que n denota la tabla de recuentos enteros no observados para cada par ( x , y ) , y que C ( S , T ) es el conjunto de tablas de enteros cuyos recuentos marginales son iguales ( S , T ) . Entonces la probabilidad de observar los recuentos marginales ( S , T ) es: p (θ norte ( x , y) C( S, T) ( S, T) ( S, T)
donde p ( n | θ ) es la distribución de muestreo multinomial. Esto define la función de probabilidad para ML, pero la evaluación directa no es factible excepto por pequeños problemas. El enfoque que recomiendan es MCMC, donde puede actualizar alternativamente n y θ
Un enfoque diferente usaría métodos variacionales para aproximar la suma sobre . Las restricciones marginales pueden codificarse como un gráfico de factores y la inferencia sobre θ podría llevarse a cabo utilizando la propagación de expectativas.norte θ
Para ver por qué este problema es difícil y no admite una solución trivial, considere el caso . Tomando S como las sumas de las filas y T como las sumas de las columnas, hay dos posibles tablas de recuento: [ 0 1 2 0 ]S= ( 1 , 2 ) , T= ( 2 , 1 ) S T
Por lo tanto la función de probabilidad es
p(S,T | theta)=3 p 12 p 2 21 +6 p 11 p 21 p 22
El MLE para este problema es
p x , Y = [ 0 1 / 3 2 / 3 0 ]
fuente
Como ha señalado @Glen_b, esto no está suficientemente especificado. No creo que pueda usar la probabilidad máxima a menos que pueda especificar completamente la probabilidad.
Si estaba dispuesto a asumir la independencia, entonces el problema es bastante simple (por cierto, creo que la solución sería la solución de entropía máxima que se ha sugerido). Si no está dispuesto o no puede imponer una estructura adicional en su problema y aún desea algún tipo de aproximación a los valores de las celdas, puede utilizar los límites de la cópula Fréchet-Hoeffding . Sin suposiciones adicionales, no creo que pueda ir más allá.
fuente
Lo incorrecto sigue:
fuente