Me preguntaba cómo los bayesianos en la comunidad CrossValidated ven el problema de la incertidumbre del modelo y cómo prefieren tratarlo. Trataré de formular mi pregunta en dos partes:
¿Qué tan importante (en su experiencia / opinión) es lidiar con la incertidumbre del modelo? No he encontrado ningún documento que aborde este problema en la comunidad de aprendizaje automático, por lo que me pregunto por qué.
¿Cuáles son los enfoques comunes para manejar la incertidumbre del modelo (puntos de bonificación si proporciona referencias)? He oído hablar del promedio del modelo bayesiano, aunque no estoy familiarizado con las técnicas / limitaciones específicas de este enfoque. ¿Cuáles son algunos otros y por qué prefiere uno sobre otro?
Respuestas:
Hay dos casos que surgen al tratar con la selección de modelos:
Cuando el modelo verdadero pertenece al espacio modelo.
Esto es muy sencillo de manejar con BIC . Hay resultados que muestran que BIC seleccionará el modelo verdadero con alta probabilidad.
Sin embargo, en la práctica es muy raro que conozcamos el verdadero modelo. Debo señalar que BIC tiende a ser mal utilizado debido a esto (la razón probable es su aspecto similar al de AIC ) . Estos problemas se han abordado en este foro anteriormente en varias formas. Una buena discusión está aquí .
Cuando el modelo verdadero no está en el espacio modelo.
Esta es un área activa de investigación en la comunidad bayesiana. Sin embargo, se confirma que las personas saben que usar BIC como criterio de selección de modelo en este caso es peligroso. La literatura reciente en análisis de datos de alta dimensión muestra esto. Un ejemplo de esto es este . El factor Bayes definitivamente funciona sorprendentemente bien en altas dimensiones. Se han propuesto varias modificaciones de BIC, como mBIC, pero no hay consenso. El RJMCMC de Green es otra forma popular de hacer la selección del modelo bayesiano, pero tiene sus propios defectos. Puedes seguir más sobre esto.
Hay otro campamento en el mundo bayesiano que recomienda promediar modelos. Ser notable, Dr. Raftery.
Promedio del modelo bayesiano.
Este sitio web de Chris Volinksy es una fuente integral de promedios de modelos bayesianos. Algunas otras obras están aquí .
Una vez más, la selección de modelos bayesianos sigue siendo un área activa de investigación y puede obtener respuestas muy diferentes dependiendo de a quién le pregunte.
fuente
Un "verdadero" bayesiano trataría con la incertidumbre del modelo al marginar (integrar) sobre todos los modelos plausibles. Entonces, por ejemplo, en un problema de regresión de cresta lineal, marginaría sobre los parámetros de regresión (que tendría un posterior gaussiano, por lo que podría hacerse analíticamente), pero luego marginaría sobre los hiperparámetros (nivel de ruido y parámetro de regularización) a través de, por ejemplo, MCMC métodos
Una solución bayesiana "menor" sería marginar los parámetros del modelo, pero optimizar los hiperparámetros maximizando la probabilidad marginal (también conocida como "evidencia bayesiana") para el modelo. Sin embargo, esto puede llevar a un ajuste excesivo de lo esperado (ver, por ejemplo, Cawley y Talbot ). Consulte el trabajo de David MacKay para obtener información sobre la maximización de la evidencia en el aprendizaje automático. Para comparar, vea el trabajo de Radford Neal sobre el enfoque de "integrar todo" a problemas similares. Tenga en cuenta que el marco de evidencia es muy útil para situaciones en las que la integración es demasiado costosa desde el punto de vista computacional, por lo que hay margen para ambos enfoques.
Efectivamente, los bayesianos se integran en lugar de optimizar. Idealmente, declararíamos nuestra creencia previa con respecto a las características de la solución (por ejemplo, suavidad) y realizar predicciones nocionalmente sin realmente hacer un modelo. Los "modelos" de procesos gaussianos utilizados en el aprendizaje automático son un ejemplo de esta idea, donde la función de covarianza codifica nuestra creencia previa con respecto a la solución. Vea el excelente libro de Rasmussen y Williams .
Para los Bayesianos prácticos, siempre hay validación cruzada, ¡es difícil de superar para la mayoría de las cosas!
fuente
Una de las cosas interesantes que encuentro en el mundo de la "incertidumbre modelo" es esta noción de "modelo verdadero". Esto significa implícitamente que nuestras "proposiciones modelo" son de la forma:
El agotamiento es crucial aquí, porque esto asegura que las probabilidades se sumen a 1, lo que significa que podemos marginar el modelo.
Pero todo esto está en el nivel conceptual: el promedio del modelo tiene un buen rendimiento. Esto significa que debe haber un mejor concepto.
Personalmente, veo los modelos como herramientas, como un martillo o un taladro. Los modelos son construcciones mentales utilizadas para hacer predicciones o describir cosas que podemos observar. Suena muy extraño hablar de un "verdadero martillo", e igualmente extraño hablar de una "verdadera construcción mental". Basado en esto, la noción de un "modelo verdadero" me parece extraña. Parece mucho más natural pensar en modelos "buenos" y modelos "malos", en lugar de modelos "correctos" y modelos "incorrectos".
Tomando este punto de vista, podríamos estar igualmente inseguros sobre el "mejor" modelo a utilizar, a partir de una selección de modelos. Entonces, supongamos que razonamos sobre la propuesta:
Sin embargo, en este enfoque, necesita algún tipo de medida de bondad de ajuste, a fin de evaluar qué tan bueno es su "mejor" modelo. Esto se puede hacer de dos maneras, probando contra modelos "seguros", lo que equivale a las estadísticas habituales de GoF (divergencia KL, Chi-cuadrado, etc.). Otra forma de evaluar esto es incluir un modelo extremadamente flexible en su clase de modelos, tal vez un modelo de mezcla normal con cientos de componentes, o una mezcla de proceso Dirichlet. Si este modelo sale como el mejor, entonces es probable que sus otros modelos sean inadecuados.
Este documento tiene una buena discusión teórica y analiza, paso a paso, un ejemplo de cómo se hace la selección de modelos.
fuente
Sé que la gente usa DIC y el factor Bayes, como dijo suncoolsu. Y me interesó cuando dijo "Hay resultados que muestran que BIC seleccionará el modelo verdadero con alta probabilidad" (¿referencias?). Pero uso lo único que sé, que es el control predictivo posterior, defendido por Andrew Gelman. Si buscas en Google Andrew Gelman y verificaciones predictivas posteriores, encontrarás muchas cosas. Y echaría un vistazo a lo que Christian Robert está escribiendo en ABC sobre la elección del modelo . En cualquier caso, aquí hay algunas referencias que me gustan y algunas publicaciones recientes en el blog de Gelman:
Blog
DIC y AIC ; Más sobre DIC . Verificación de modelos y validación externa
Artículos sobre comprobaciones predictivas posteriores:
GELMAN, Andrew. (2003a). "Una formulación bayesiana de análisis de datos exploratorios y pruebas de bondad de ajuste". Revista Estadística Internacional, vol. 71, n. 2, págs. 389-382.
GELMAN, Andrew. (2003b). "Análisis de datos exploratorios para modelos complejos". Revista de Estadística Computacional y Gráfica, vol. 13, n. 4, págs. 755/779.
GELMAN, Andrew; MECHELEN, Iven Van; VERBEKE, Geert; HEITJAN, Daniel F .; MEULDERS, Michel. (2005) "Imputación múltiple para la verificación de modelos: diagramas de datos completos con datos faltantes y latentes". Biometrics 61, 74–85, marzo
GELMAN, Andrew; MENG, Xiao-Li; STERN, Hal. (1996) "Evaluación predictiva posterior de la aptitud del modelo a través de discrepancias realizadas". Statistica Sinica, 6, págs. 733-807.
fuente