No sé si esta es una práctica común / mejor, pero es otro punto de vista del asunto.
Si tiene, digamos, una fecha, puede tratar cada campo como una "variable de categoría" en lugar de una "variable continua". El día tendría un valor en el conjunto {1, 2 ..., 31}, el mes tendría un valor en {1, ..., 12} y, para el año, usted elige un valor mínimo y un valor máximo y construir un conjunto.
Luego, como los valores numéricos específicos de días, meses y años pueden no ser útiles para encontrar tendencias en los datos, use una representación binaria para codificar los valores numéricos, siendo cada bit una característica. Por ejemplo, el mes 5 sería0 0 0 0 1 0 0 0 0 0 0 0
(11 0's a a 1 en 5ta posición, cada bit es una característica)
Entonces, teniendo, por ejemplo, 10 años en el "conjunto del año", una fecha se transformaría en un vector de 43 características (= 31 + 12 + 10). Usando "vectores dispersos", la cantidad de características no debería ser un problema.
Algo similar podría hacerse para los datos de tiempo, día de la semana, día del mes ...
Todo depende de la pregunta que desee que responda su modelo de aprendizaje automático.
Contexto de mi respuesta : Ha habido excelentes respuestas hasta ahora. Pero, quiero extender la conversación asumiendo que está hablando de una aplicación de aprendizaje automático para predecir los valores futuros de esta serie de tiempo en particular. Con ese contexto en mente, mi consejo está a continuación.
Consejo : Primero busque en las estrategias tradicionales de pronóstico estadístico (es decir, suavizado exponencial, SARIMAX o regresión dinámica) como base para el desempeño de la predicción. Aunque el aprendizaje automático ha demostrado ser muy prometedor para una variedad de aplicaciones, para series de tiempo, existen métodos estadísticos probados y verdaderos que pueden servirle mejor para su aplicación. Me gustaría llamar su atención sobre dos artículos recientes:
Si está buscando un buen rendimiento, elija una métrica para compararla con varios modelos (es decir, como MASE) y explore varios modelos estadísticos (referencias a continuación) y de aprendizaje automático (con las estrategias de desarrollo de características mencionadas anteriormente).
Salud,
Recursos para el aprendizaje de pronósticos estadísticos : comenzaría por revisar el libro de texto gratuito de Rob J Hyndman aquí: https://otexts.org/fpp2/ . El texto se basa en un paquete R que puede incorporar fácilmente en su análisis: https://otexts.org/fpp2/appendix-using-r.html . Finalmente, tenga en cuenta la diferencia entre la validación cruzada de sección transversal y la validación cruzada de series de tiempo como se explica aquí: https://robjhyndman.com/hyndsight/tscv/ .
fuente