¿Tendría sentido equipar un modelo a propósito?
Digamos que tengo un caso de uso donde sé que los datos no variarán mucho con respecto a los datos de entrenamiento.
Estoy pensando aquí en la predicción del tráfico, donde el estado del tráfico sigue un conjunto fijo de patrones
- viaje matutino
- actividad nocturna
- y así.
Estos patrones no cambiarán mucho a menos que haya un aumento repentino de usuarios de automóviles o cambios importantes en la infraestructura vial. En este caso, me gustaría que el modelo sea lo más sesgado posible hacia los patrones que aprendió en los datos actuales, suponiendo que en el futuro el patrón y los datos serán muy similares.
Respuestas:
En general, no tiene sentido sobreajustar sus datos a propósito. El problema es que es difícil asegurarse de que los patrones también aparezcan en la parte que no está incluida en sus datos. Tienes que afirmar que hay un patrón en los datos. Una posibilidad de hacerlo es el concepto de estacionariedad.
Lo que describe me recuerda la estacionariedad y la ergodicidad. Desde un lado contextual / comercial, asume que su serie temporal sigue ciertos patrones. Estos patrones se denominan estacionariedad o ergodicidad.
Definición de estacionariedad:
Un proceso estacionario es un proceso estocástico cuya distribución de probabilidad conjunta incondicional no cambia cuando se desplaza en el tiempo. Por lo tanto, parámetros como la media y la varianza tampoco cambian con el tiempo.
Definición ergodicidad:
Un proceso ergódico es un proceso relacionado o que denota sistemas o procesos con la propiedad de que, con el tiempo suficiente, incluyen o inciden en todos los puntos en un espacio dado y pueden representarse estadísticamente mediante una selección razonablemente grande de puntos.
Ahora desea asegurarse de que realmente siga estos ciertos patrones. Puede hacerlo, por ejemplo, con la prueba de raíz unitaria (como Dickey-Fuller) o la prueba de estacionariedad (como KPSS).
Prueba de raíz de unidad de definición:
Prueba de estacionariedad de definición:
Otras lecturas:
¿Cuál es la diferencia entre una prueba estacionaria y una prueba de raíz unitaria?
Si la serie temporal realmente sigue estos patrones, el pronóstico y la predicción serán "más fáciles desde un punto de vista estadístico", por ejemplo, puede aplicar modelos econométricos para pronósticos como ARIMA o TBATS. Mi respuesta se refiere a series de tiempo univariadas y también multivariadas si tiene estacionariedad de datos de sección transversal y las raíces unitarias no son conceptos comunes.
fuente
No, no tiene sentido sobreajustar sus datos.
El término sobreajuste en realidad se refiere a una comparación entre modelos: si el rendimiento del modelo_a mejor en los datos de entrenamiento dados pero peor fuera de la muestra que el modelo_b , el modelo_a está sobreajustado . O en otras palabras: " existe una alternativa mejor ".
Si el estado del tráfico " no variará en absoluto con respecto a los datos de entrenamiento", entonces obtendrá los mejores resultados posibles simplemente memorizando los datos de entrenamiento (de nuevo, eso no es "sobreajuste").
Pero "los datos no variarán mucho con respecto a los datos de entrenamiento" simplemente equivale a tener una representación razonable del patrón subyacente. Aquí es donde el aprendizaje automático funciona mejor ( entorno estacionario como explicó Ferdi ).
fuente
Yo diría que hay un sentido para sobreajustar sus datos, pero solo con fines de investigación. (¡No use el modelo sobreajustado en la producción!)
En los casos en que los datos pueden ser complejos y la tarea no es trivial, tratar de sobreajustar un modelo puede ser un paso importante.
Si puede sobreajustar un modelo, significa que el modelo puede describir los datos.
Si ni siquiera puede sobreajustar, puede darle una pista para la investigación:
fuente