Estoy desarrollando sistemas comerciales automatizados para el mercado de valores. El gran desafío ha sido el sobreajuste. ¿Puede recomendarme algunos recursos que describan métodos para medir y evitar el sobreajuste?
Comencé con conjuntos de entrenamiento / validación, pero el conjunto de validación siempre se contamina.
Además, los datos de la serie temporal siempre están cambiando porque el mercado siempre está cambiando. ¿Cómo se mide esto y se determina la probabilidad de resultados consistentes en datos no vistos?
Gracias.
Respuestas:
Para un ajuste excesivo en la selección del modelo, entonces un artículo que vale la pena leer es
C. Ambroise y GJ McLachlan, "Sesgo de selección en la extracción de genes sobre la base de datos de expresión de genes de microarrays", PNAS, vol. 99 no. 10 6562-6566, mayo de 2002. http://dx.doi.org/10.1073/pnas.102102699
Para una discusión sobre el mismo tipo de problema que surge en la selección del modelo, vea
GC Cawley, NLC Talbot, "Sobre el ajuste excesivo en la selección del modelo y el sesgo de selección posterior en la evaluación del rendimiento", Journal of Machine Learning Research, 11 (julio): 2079-2107, 2010. http://jmlr.csail.mit. edu / papers / v11 / cawley10a.html
La forma de resolver el problema de que el conjunto de validación se contamine es utilizar la validación cruzada anidada, por lo que el método utilizado para tomar decisiones sobre el modelo se realiza de forma independiente en cada pliegue de la validación cruzada utilizada para la estimación del rendimiento. Esencialmente, la estimación del rendimiento debe estimar el rendimiento de todo el procedimiento de ajuste del modelo (ajuste del modelo, selección de características, selección de modelos, todo).
El otro enfoque es ser bayesiano. El riesgo de sobreajuste se introduce cada vez que optimiza un criterio basado en una muestra finita de datos, por lo que si marginaliza (integra) en lugar de optimizar, entonces el sobreajuste clásico es imposible. Sin embargo, tiene el problema de especificar los antecedentes.
fuente