¿Cuál es la diferencia entre maximizar la probabilidad condicional (log) o la probabilidad conjunta (log) al estimar los parámetros de un modelo?

9

Considere una respuesta y y matriz de datos X . Supongamos que estoy creando un modelo del formulario:

y ~ g (X, )θ

(g () podría ser cualquier función de X y )θ

Ahora, para estimar utilizando el método de máxima verosimilitud (ML), podría seguir adelante con ML condicional (suponiendo que conozca la forma de densidad condicional f (y | X) ) o con ML conjunta (suponiendo que conozca la forma de articulación densidad f (y, X) o equivalente, f (X | y) * f (y) )θ

Me preguntaba si hay alguna consideración para seguir adelante con cualquiera de los dos métodos anteriores, aparte de la suposición sobre las densidades. Además, ¿hay casos (tipos específicos de datos) en los que un método domine al otro la mayor parte del tiempo?

pescado estable
fuente
Si tiene muchos datos, creo que las densidades conjuntas son más poderosas.
user541686

Respuestas:

6

Depende de lo que quieras hacer con tu modelo más adelante.

Los modelos conjuntos intentan predecir toda la distribución sobre e . Tiene algunas propiedades útiles:Xy

  • Detección de valores atípicos. Se pueden identificar muestras muy diferentes a las muestras de entrenamiento, ya que tendrán una probabilidad marginal baja. Un modelo condicional no necesariamente será bueno para decirte esto.
  • A veces es más fácil de optimizar. Si su modelo era un modelo de mezcla gaussiana, por ejemplo, hay formas bien documentadas de ajustarlo a la densidad de la junta que puede conectar (maximización de expectativas, bahías variacionales), pero las cosas se vuelven más complicadas si desea entrenarlo condicionalmente.
  • Dependiendo del modelo , la capacitación puede ser paralelizada al aprovechar las ventajas de las dependencias condicionales, y también puede evitar la necesidad de volver a capacitarla más adelante si hay nuevos datos disponibles. Por ejemplo, si cada distribución marginal se parametriza por separado, y observa una nueva muestra , entonces la única distribución marginal que necesita volver a entrenar es . Las otras distribuciones marginales no se ven afectadas. Esta propiedad es menos común con los modelos condicionales.F(XEl |y)(X=X1,y=y1)F(XEl |y=y1)F(XEl |y=y2),F(XEl |y=y3),...
  • Recuerdo haber leído un documento que indicaba que los modelos conjuntos tienen algunas otras propiedades agradables en los casos en que hay muchos datos, pero no puedo recordar el reclamo exacto o encontrarlo en mi gran carpeta de documentos interesantes. Si lo encuentro más tarde, pondré una referencia.

Sin embargo, los modelos condicionales también tienen algunas propiedades interesantes.

  • Pueden funcionar muy bien.
  • Algunos han tenido mucho trabajo para encontrar estrategias de optimización sensatas (por ejemplo, máquinas de vectores de soporte)
  • La distribución condicional es a menudo `` más simple '' modelar que la articulación: para modelar la última, debe modelar la primera y modelar la distribución marginal. Si solo está interesado en obtener predicciones precisas de qué valor es para una dada , puede ser más sensato concentrar la capacidad de su modelo en representar esto solo.yX
Palmadita
fuente
1
Gracias por la respuesta. ¿Pueden proporcionar también enlaces a literatura relevante?
steadyfish