Intento utilizar la regresión de RF para hacer predicciones sobre el rendimiento de una fábrica de papel.
Tengo datos minuto a minuto para las entradas (velocidad y cantidad de pulpa de madera que ingresa, etc.), así como para el rendimiento de la máquina (papel producido, energía consumida por la máquina) y estoy buscando hacer predicciones 10 minutos adelante en las variables de rendimiento.
Tengo 12 meses de datos, así que los he separado en 11 meses para el conjunto de entrenamiento y el último mes para las pruebas.
Hasta ahora, he creado 10 nuevas características que son valores rezagados de 1 a 10 minutos para cada una de las variables de rendimiento, y las utilicé, así como las entradas para hacer predicciones. El rendimiento en el conjunto de pruebas ha sido bastante bueno (el sistema es bastante predecible), pero me preocupa que me falte algo en mi enfoque.
Por ejemplo, en este documento , los autores exponen su enfoque al probar la capacidad predictiva de su modelo de bosque aleatorio:
La simulación continúa agregando iterativamente una nueva semana de datos, entrenando un nuevo modelo basado en los datos actualizados y prediciendo el número de brotes para la semana siguiente
¿En qué se diferencia esto de utilizar datos "posteriores" en las series de tiempo como prueba? ¿Debería validar mi modelo de regresión de RF con este enfoque y con el conjunto de datos de prueba? Además, ¿es este tipo de enfoque 'autorregresivo' para la regresión aleatoria del bosque válido para series de tiempo, e incluso necesito crear tantas variables rezagadas si estoy interesado en una predicción de 10 minutos en el futuro?
Respuestas:
El enfoque que cita se denomina pronóstico de "origen variable": el origen desde el que pronosticamos se "avanza" y los datos de capacitación se actualizan con la nueva información disponible. El enfoque más simple es el "pronóstico de origen único", donde seleccionamos un origen único.
La ventaja de la previsión del origen móvil es que simula un sistema de previsión a lo largo del tiempo . En el pronóstico de origen único, podríamos elegir un origen donde nuestro sistema funciona muy bien (o muy mal), lo que podría darnos una idea incorrecta del rendimiento de nuestro sistema.
Una desventaja de la predicción del origen móvil es su mayor requisito de datos. Si queremos pronosticar 10 pasos con al menos 50 observaciones históricas, entonces podemos hacer este origen único con 60 puntos de datos en general. Pero si queremos hacer 10 orígenes rodantes superpuestos, entonces necesitamos 70 puntos de datos.
La otra desventaja es, por supuesto, su mayor complejidad.
No es necesario decir que tampoco debe usar datos "posteriores" en el pronóstico de origen continuo, sino solo usar datos anteriores al origen que está usando en cada iteración.
Si tiene suficientes datos, una evaluación de origen continua siempre inspirará más confianza en mí que una sola evaluación de origen, porque con suerte promediará el impacto del origen.
Sí, la predicción continua frente al origen único es válida para cualquier ejercicio predictivo. No depende de si usa bosques aleatorios o ARIMA o cualquier otra cosa.
Si necesita sus variables rezagadas es algo que no podemos aconsejarle. Sería mejor hablar con un experto en la materia, que también podría sugerir otras aportaciones. Simplemente pruebe su RF con las entradas retrasadas vs. sin. Y también compare con puntos de referencia estándar como ARIMA o ETS o incluso métodos más simples, que pueden ser sorprendentemente difíciles de superar .
fuente