¿Puede alguien referirme a una buena referencia que explique la conexión entre las estadísticas bayesianas y las técnicas de modelado generativo? ¿Por qué solemos utilizar modelos generativos con técnicas bayesianas?
¿Por qué es especialmente atractivo utilizar estadísticas bayesianas en ausencia de datos completos, si es que lo hace?
Tenga en cuenta que vengo de una vista más orientada al aprendizaje automático, y estoy interesado en leer más sobre esto en la comunidad de estadísticas.
Cualquier buena referencia que discuta estos puntos sería muy apreciada. Gracias.
bayesian
generative-models
bayesiano
fuente
fuente
Respuestas:
En el aprendizaje automático, un modelo de probabilidad completa p (x, y) se llama generativo porque puede usarse para generar los datos, mientras que un modelo condicional p (y | x) se llama discriminativo porque no especifica un modelo de probabilidad para p (x ) y solo puede generar y dado x. Ambos se pueden estimar a la manera bayesiana.
La estimación bayesiana es inherentemente acerca de especificar un modelo de probabilidad completa y realizar inferencia condicional en el modelo y los datos. Eso hace que muchos modelos bayesianos tengan una sensación generativa. Sin embargo, para un Bayesiano, la distinción importante no es tanto sobre cómo generar los datos, sino más sobre lo que se necesita para obtener la distribución posterior de los parámetros desconocidos de interés.
El modelo discriminativo p (y | x) es parte de un modelo más grande donde p (y, x) = p (y | x) p (x). En muchos casos, p (x) es irrelevante para la distribución posterior de los parámetros en el modelo p (y | x). Específicamente, si los parámetros de p (x) son distintos de p (y | x) y los anteriores son independientes, entonces el modelo p (x) no contiene información sobre los parámetros desconocidos del modelo condicional p (y | x), entonces un Bayesiano no necesita modelarlo.
En un nivel más intuitivo, existe un vínculo claro entre "generar datos" y "calcular la distribución posterior". Rubin (1984) da la siguiente excelente descripción de este enlace:
Las estadísticas bayesianas son útiles dados los datos que faltan principalmente porque proporcionan una forma unificada de eliminar parámetros molestos: la integración. Los datos faltantes pueden considerarse como (muchos) parámetros molestos. Las propuestas alternativas, como conectar el valor esperado, generalmente funcionarán mal porque raramente podemos estimar las celdas de datos faltantes con altos niveles de precisión. Aquí, la integración es mejor que la maximización.
Los modelos discriminativos como p (y | x) también se vuelven problemáticos si x incluye datos faltantes porque solo tenemos datos para estimar p (y | x_obs), pero los modelos más sensibles se escriben con respecto a los datos completos p (y | x). Si tiene un modelo de probabilidad completa p (y, x) y es bayesiano, entonces está bien porque puede integrarse sobre los datos faltantes como lo haría con cualquier otra cantidad desconocida.
fuente
@Tristan: Espero que no te importe que vuelva a trabajar tu respuesta, ya que estoy trabajando en cómo hacer que el punto general sea lo más transparente posible.
Para mí, la primariaLa comprensión de las estadísticas consiste en conceptualizar observaciones repetidas que varían, como las generadas por un modelo generador de probabilidad, como Normal (mu, sigma). A principios de 1800, los modelos generadores de probabilidad entretenidos generalmente eran solo para errores de medición con el papel de los parámetros, como mu y sigma y los anteriores para ellos confusos. Los enfoques frecuentes tomaban los parámetros como fijos y desconocidos y, por lo tanto, los modelos de generación de probabilidad solo involucraban posibles observaciones. Los enfoques bayesianos (con antecedentes adecuados) tienen modelos generadores de probabilidad tanto para posibles parámetros desconocidos como para posibles observaciones. Estos modelos conjuntos de generación de probabilidad explican de manera exhaustiva todas las posibles incógnitas (como parámetros) y conocimientos (como las observaciones). Como en el enlace de Rubin que diste,
Esto en realidad fue muy claramente representado por Galton en un quincunx de dos etapas a fines del 1800, s. Ver figura 5> Stigler, Stephen M. 2010. Darwin, Galton y la estadística
Es equivalente pero quizás más transparente que
posterior = anterior (posibles incógnitas | posibles conocimientos = conocimientos)
que posterior ~ anterior (posibles incógnitas) * p (posibles conocimientos = conocimientos | posibles incógnitas)
No hay nada nuevo para los valores perdidos en el primero, ya que uno solo agrega posibles incógnitas para un modelo de probabilidad que genera valores perdidos y trata los desaparecidos como solo uno de los posibles conocimientos (es decir, falta la tercera observación).
Recientemente, la computación bayesiana aproximada (ABC) se ha tomado en serio este enfoque constructivo de simulación de dos etapas cuando p (posibles conocimientos = conocimientos | posibles incógnitas) no se puede resolver. Pero incluso cuando esto pueda resolverse y el posterior se pueda obtener fácilmente del muestreo de MCMC (o incluso cuando el posterior esté directamente disponible debido a que el conjugado anterior), el punto de Rubin sobre esta construcción de muestreo de dos etapas que permite una comprensión más fácil, no debe pasarse por alto.
Por ejemplo, estoy seguro de que habría captado lo que @Zen hizo aquí Bayesianos: ¿esclavos de la función de probabilidad? porque uno necesitaría extraer una posible c desconocida de una previa (etapa uno) y luego extraer una posible (datos) conocida dado que c (etapa 2) que no habría sido una generación aleatoria como p (posibles conocimientos | c) no haber sido una probabilidad excepto uno y solo uno c.
De @Zen “Desafortunadamente, en general, esta no es una descripción válida de un modelo estadístico. El problema es que, por definición,FXyo∣ C(⋅ ∣ c ) debe ser una densidad de probabilidad para casi todos los valores posibles deC , que es, en general, claramente falso ".
fuente