Tengo algunos modelos predictivos cuyo rendimiento me gustaría probar (es decir, tomar mi conjunto de datos, "rebobinarlo" a un punto anterior en el tiempo y ver cómo el modelo hubiera funcionado de manera prospectiva).
El problema es que algunos de mis modelos se construyeron a través de un proceso interactivo. Por ejemplo, siguiendo el consejo de las Estrategias de modelado de regresión de Frank Harrell , en un modelo utilicé splines cúbicas restringidas para manejar posibles asociaciones no lineales entre las características y la respuesta. Asigné los grados de libertad de cada spline en función de una combinación de conocimiento de dominio y medidas univariadas de fuerza de asociación. Pero los grados de libertad que quiero permitir a mi modelo obviamente dependen del tamaño del conjunto de datos, que varía drásticamente cuando se realiza una prueba inversa. Si no quiero seleccionar manualmente los grados de libertad por separado para cada vez que se realiza una prueba de retroceso del modelo, ¿cuáles son mis otras opciones?
Para otro ejemplo, actualmente estoy trabajando en la detección de valores atípicos mediante la búsqueda de puntos con un alto apalancamiento. Si estuviera contento de hacer esto a mano, simplemente miraría cada punto de datos de alto apalancamiento, comprobaría que los datos estaban limpios y los filtraría o los limpiaría a mano. Pero esto se basa en un montón de conocimientos de dominio, por lo que no sé cómo automatizar el proceso.
Agradecería consejos y soluciones tanto (a) al problema general de automatizar partes interactivas del proceso de construcción del modelo, o (b) consejos específicos para estos dos casos. ¡Gracias!
fuente
En lugar de tratar de descubrir cómo automatizar sus esfuerzos de ajuste manual del modelo, eludiría todo ese problema al analizar a los alumnos con variaciones más bajas que requieren mucho menos ajuste, incluso si eso conlleva un costo de mayor sesgo del modelo. Desea confianza en los resultados de su backtest, que en gran medida se reduce a una baja varianza de muestreo en sus predicciones, e introduce un proceso de ajuste automático además de un alumno que ya tiene una varianza de muestreo que está trabajando en contra de ese objetivo. Puede parecer que la cola está moviendo al perro aquí, pero cualquier cosa que requiera un ajuste cuidadoso (manual o automático) no es un gran candidato para un entorno de prueba verdaderamente honesto IMO.
fuente