¿Cómo puede detectar si un proceso gaussiano se sobreajusta?

11

Estoy entrenando un proceso gaussiano con un núcleo ARD con muchos parámetros maximizando la capacidad marginal de los datos, en lugar de la validación cruzada.

Sospecho que es demasiado adecuado. ¿Cómo puedo probar esta sospecha en un contexto bayesiano?

nickponline
fuente

Respuestas:

12

Lo más sencillo sería ajustar un proceso gaussiano con la función de covarianza no ARD equivalente (generalmente el RBF) y comparar las tasas de error de la prueba. Para muchos problemas, una función de covarianza ARD funciona peor que una función de covarianza no ARD debido al sobreajuste en el ajuste de los hiperparámetros. Como la covarianza RBF es un caso especial de la covarianza ARD, si el RBF funciona mejor, es una fuerte indicación de que el núcleo ARD se sobreajusta (comience a optimizar los coeficientes ARD en los valores óptimos para la covarianza RBF correspondiente, esto es más rápido, y también ayuda a garantizar que el problema con la covarianza ARD no se deba solo a mínimos locales en la probabilidad marginal). Este es un problema mucho más grande de lo que generalmente se aprecia.

He escrito un par de artículos sobre esto:

GC Cawley y NLC Talbot, Prevención del sobreajuste durante la selección del modelo mediante la regularización bayesiana de los hiperparámetros, Journal of Machine Learning Research, volumen 8, páginas 841-861, abril de 2007 ( pdf )

y

GC Cawley y NLC Talbot, Ajuste excesivo en la selección del modelo y posterior sesgo de selección en la evaluación del rendimiento, Journal of Machine Learning Research, 2010. Research, vol. 11, págs. 2079-2107, julio de 2010 ( pdf )

El primero incluye algunos experimentos con médicos de cabecera, que muestran que el ajuste excesivo en la selección de modelos también es un problema para los médicos de cabecera con una selección de modelo basada en la maximización de probabilidad marginal.

Un análisis más exhaustivo sería evaluar el error de prueba del GP en cada paso del proceso de optimización de la probabilidad marginal. Es muy probable que obtenga la marca clásica de sobreajuste, donde el criterio de selección del modelo está disminuyendo monotónicamente, pero el error de prueba inicialmente disminuye, pero luego comienza a aumentar nuevamente cuando el criterio de selección del modelo está demasiado optimizado (cf Figura 2a en el documento JMLR de 2010).

Dikran Marsupial
fuente
Genial gracias, estoy leyendo el primero ahora. ¿Ha encontrado una manera más efectiva de regularizar nuevamente el sobreajuste con núcleos con muchos parámetros como ARD si el término de complejidad del modelo en la probabilidad marginal no es suficiente para evitar el sobreajuste?
nickponline
2
Sospecho que lo más robusto sería marginar los hiperparámetros utilizando los métodos de Markov Chain Monte Carlo. Para el tamaño del conjunto de datos para el que los GP tienden a acostumbrarse (hasta unos pocos miles de patrones) sospecho que el ajuste excesivo de la probabilidad marginal es casi inevitable. La optimización de mi humilde opinión es la raíz de todo mal en las estadísticas, cada vez que optimizas algo corres el riesgo de un ajuste excesivo. El enfoque bayesiano es mucho mejor en ese sentido, pero en su lugar corre el riesgo de dificultades porque los antecedentes están mal :-(
Dikran Marsupial
@DikranMarsupial ¿Hay alguna investigación reciente sobre cómo evitar el sobreajuste con los métodos de GP Variacional?
imsrgadich