¿Mejores prácticas para medir y evitar el sobreajuste?

Estoy desarrollando sistemas comerciales automatizados para el mercado de valores. El gran desafío ha sido el sobreajuste. ¿Puede recomendarme algunos recursos que describan métodos para medir y evitar el sobreajuste?

Comencé con conjuntos de entrenamiento / validación, pero el conjunto de validación siempre se contamina.

Además, los datos de la serie temporal siempre están cambiando porque el mercado siempre está cambiando. ¿Cómo se mide esto y se determina la probabilidad de resultados consistentes en datos no vistos?

Gracias.

time-series machine-learning dataset data-mining validation B Seven
fuente

B Siete, tu pregunta es demasiado alta y poco específica. Básicamente, todo el campo del aprendizaje automático puede reducirse a la cuestión de cómo evitar el sobreajuste. Existen varias estrategias como la validación cruzada, la regularización o el uso de un previo adecuado. Todo buen libro de aprendizaje automático puede ayudarte con eso (por ejemplo, el Duda / Hart / Stork o el de Bishop). Tampoco está claro qué quiere decir con un "conjunto de validación contaminada". Si su modelo no puede hacer frente al cambio de datos de series temporales, significa que probablemente sea demasiado simple. Pero los modelos más complejos necesitarán aún más regularización.

fabee

@ B Seven: si su conjunto de validación se contamina (supongo que al adaptarle los modelos), ¿quizás sea más apropiado dividir sus datos en un conjunto de capacitación, prueba y validación?

richiemorrisroe

OK, eso tiene sentido. Entonces, diferentes enfoques para evitar el trabajo sobreajustado en diferentes dominios.

B Seven

Respuestas:

Para un ajuste excesivo en la selección del modelo, entonces un artículo que vale la pena leer es

C. Ambroise y GJ McLachlan, "Sesgo de selección en la extracción de genes sobre la base de datos de expresión de genes de microarrays", PNAS, vol. 99 no. 10 6562-6566, mayo de 2002. http://dx.doi.org/10.1073/pnas.102102699

Para una discusión sobre el mismo tipo de problema que surge en la selección del modelo, vea

GC Cawley, NLC Talbot, "Sobre el ajuste excesivo en la selección del modelo y el sesgo de selección posterior en la evaluación del rendimiento", Journal of Machine Learning Research, 11 (julio): 2079-2107, 2010. http://jmlr.csail.mit. edu / papers / v11 / cawley10a.html

La forma de resolver el problema de que el conjunto de validación se contamine es utilizar la validación cruzada anidada, por lo que el método utilizado para tomar decisiones sobre el modelo se realiza de forma independiente en cada pliegue de la validación cruzada utilizada para la estimación del rendimiento. Esencialmente, la estimación del rendimiento debe estimar el rendimiento de todo el procedimiento de ajuste del modelo (ajuste del modelo, selección de características, selección de modelos, todo).

El otro enfoque es ser bayesiano. El riesgo de sobreajuste se introduce cada vez que optimiza un criterio basado en una muestra finita de datos, por lo que si marginaliza (integra) en lugar de optimizar, entonces el sobreajuste clásico es imposible. Sin embargo, tiene el problema de especificar los antecedentes.

Dikran Marsupial
fuente

Implementé la validación cruzada y la validación cruzada Leave One Out, pero no descubrí cómo medir y mitigar el sobreajuste. Miré esos papeles, pero están sobre mi cabeza. ¿Me puede recomendar más recursos introductorios?

B Seven

para medir el sobreajuste, solo necesita anidar la validación cruzada. La validación cruzada externa se usa para la evaluación del desempeño, y dentro de cada pliegue de la validación cruzada externa se usa una validación cruzada "interna" para la selección de características y la selección del modelo, etc. Eso le dará una estimación imparcial del desempeño.

Dikran Marsupial