Regresión aleatoria del bosque para predicción de series de tiempo

10

Intento utilizar la regresión de RF para hacer predicciones sobre el rendimiento de una fábrica de papel.

Tengo datos minuto a minuto para las entradas (velocidad y cantidad de pulpa de madera que ingresa, etc.), así como para el rendimiento de la máquina (papel producido, energía consumida por la máquina) y estoy buscando hacer predicciones 10 minutos adelante en las variables de rendimiento.

Tengo 12 meses de datos, así que los he separado en 11 meses para el conjunto de entrenamiento y el último mes para las pruebas.

Hasta ahora, he creado 10 nuevas características que son valores rezagados de 1 a 10 minutos para cada una de las variables de rendimiento, y las utilicé, así como las entradas para hacer predicciones. El rendimiento en el conjunto de pruebas ha sido bastante bueno (el sistema es bastante predecible), pero me preocupa que me falte algo en mi enfoque.

Por ejemplo, en este documento , los autores exponen su enfoque al probar la capacidad predictiva de su modelo de bosque aleatorio:

La simulación continúa agregando iterativamente una nueva semana de datos, entrenando un nuevo modelo basado en los datos actualizados y prediciendo el número de brotes para la semana siguiente

¿En qué se diferencia esto de utilizar datos "posteriores" en las series de tiempo como prueba? ¿Debería validar mi modelo de regresión de RF con este enfoque y con el conjunto de datos de prueba? Además, ¿es este tipo de enfoque 'autorregresivo' para la regresión aleatoria del bosque válido para series de tiempo, e incluso necesito crear tantas variables rezagadas si estoy interesado en una predicción de 10 minutos en el futuro?

KRS-fun
fuente
2
Los RF no están diseñados y no integran explícitamente consideraciones temporales. Dado eso, ¿por qué usarlos para este análisis? Hay muchas metodologías de series de tiempo por ahí. Elegir uno.
Mike Hunter
2
@DJohnson Pensé que intentaría imitar el enfoque en el documento: intente RF y compárelo con ARIMA. ¿Está sugiriendo que no vale la pena el tiempo y que simplemente utilice ARIMA?
KRS-diversión
44
@DJohnson, la mecánica de los modelos autorregresivos es muy parecida a la de los modelos de regresión transversal. Una vez que se construyen las características rezagadas, ¿por qué no usar RF como en una configuración de sección transversal? Creo que es justo probarlos. Pero tiene razón en que otros métodos son más populares en series temporales, y el OP también podría beneficiarse de explorarlos.
Richard Hardy
1
Mi opinión es que los RF son como el martillo donde todo se convierte en un clavo. Con los datos descritos por el OP, mi primera opción sería un panel de datos o un modelo agrupado, no ARIMA.
Mike Hunter
55
Encontré esto hace un momento y leí el periódico al que hace referencia hace un par de días. Estoy comparando bosque aleatorio y un LSTM para pronósticos de series de tiempo multivariadas. Curiosamente, el LSTM funciona mejor cuando incluye menos tiempo en los datos de entrenamiento, pero a medida que agrego más años de datos, los resultados de ambos métodos están convergiendo en los resultados verdaderos. Creo que esto se debe principalmente a que las características proporcionan suficiente información para superar el componente temporal. De todos modos, pensé que era interesante. Además, nunca he visto a ARIMA funcionar bien, excepto en casos estacionales muy obvios, y ARIMA multivariante es ...
Hobbes

Respuestas:

6

¿En qué se diferencia esto de utilizar datos "posteriores" en las series de tiempo como prueba?

El enfoque que cita se denomina pronóstico de "origen variable": el origen desde el que pronosticamos se "avanza" y los datos de capacitación se actualizan con la nueva información disponible. El enfoque más simple es el "pronóstico de origen único", donde seleccionamos un origen único.

La ventaja de la previsión del origen móvil es que simula un sistema de previsión a lo largo del tiempo . En el pronóstico de origen único, podríamos elegir un origen donde nuestro sistema funciona muy bien (o muy mal), lo que podría darnos una idea incorrecta del rendimiento de nuestro sistema.

Una desventaja de la predicción del origen móvil es su mayor requisito de datos. Si queremos pronosticar 10 pasos con al menos 50 observaciones históricas, entonces podemos hacer este origen único con 60 puntos de datos en general. Pero si queremos hacer 10 orígenes rodantes superpuestos, entonces necesitamos 70 puntos de datos.

La otra desventaja es, por supuesto, su mayor complejidad.

No es necesario decir que tampoco debe usar datos "posteriores" en el pronóstico de origen continuo, sino solo usar datos anteriores al origen que está usando en cada iteración.

¿Debería validar mi modelo de regresión de RF con este enfoque y con el conjunto de datos de prueba?

Si tiene suficientes datos, una evaluación de origen continua siempre inspirará más confianza en mí que una sola evaluación de origen, porque con suerte promediará el impacto del origen.

Además, ¿es este tipo de enfoque 'autorregresivo' para la regresión aleatoria del bosque válido para series de tiempo, e incluso necesito crear tantas variables rezagadas si estoy interesado en una predicción de 10 minutos en el futuro?

Sí, la predicción continua frente al origen único es válida para cualquier ejercicio predictivo. No depende de si usa bosques aleatorios o ARIMA o cualquier otra cosa.

Si necesita sus variables rezagadas es algo que no podemos aconsejarle. Sería mejor hablar con un experto en la materia, que también podría sugerir otras aportaciones. Simplemente pruebe su RF con las entradas retrasadas vs. sin. Y también compare con puntos de referencia estándar como ARIMA o ETS o incluso métodos más simples, que pueden ser sorprendentemente difíciles de superar .

Stephan Kolassa
fuente