Estoy trabajando en el desarrollo de un modelo para predecir las ventas totales de un producto. Tengo aproximadamente un año y medio de datos de reservas, por lo que podría hacer un análisis estándar de series de tiempo. Sin embargo, también tengo muchos datos sobre cada 'oportunidad' (venta potencial) que se cerró o se perdió. Las 'oportunidades' progresan a lo largo de las etapas de una tubería hasta que se cierran o se pierden; también tienen datos asociados sobre el posible comprador, vendedor, historial de interacción, industria, tamaño estimado de reservas, etc.
Mi objetivo es, en última instancia, predecir las reservas totales, pero quiero dar cuenta de toda esta información sobre las 'oportunidades' actuales, que son la verdadera 'causa raíz' de las reservas.
Una idea que tengo es usar dos modelos diferentes en serie de la siguiente manera:
Use 'oportunidades' históricas para construir un modelo que prediga las reservas que surjan de una 'oportunidad' individual (probablemente usaría bosques aleatorios o incluso una regresión lineal simple para este paso).
Use el modelo del 1 para predecir las reservas estimadas de todas las 'oportunidades' actualmente en la tubería, luego sume esas estimaciones basadas en el mes en que se creó cada 'oportunidad'.
Utilice un modelo de serie temporal (¿posiblemente ARIMA?), Utilizando los datos de series históricas mensuales de 1.5 años Y las reservas totales pronosticadas (utilizando el modelo de 1) para todas las 'oportunidades' creadas en ese mes.
De acuerdo, habría un retraso en esas oportunidades de conversión a reservas reales, pero el modelo de serie temporal debería ser capaz de lidiar con el retraso.
¿Como suena esto? He leído mucho sobre series de tiempo y prediciendo ventas, y por lo que puedo decir, este es un enfoque algo único. ¡Por lo tanto, agradecería cualquier comentario!
fuente
Respuestas:
Puede terminar con un modelo que parece ajustarse a sus datos actuales OK, pero se despegará tan pronto como intente y produzca un pronóstico fuera de la muestra. Considere producir su pronóstico por 6 meses. No tiene forma de saber cuáles serán las oportunidades en seis meses, por lo que tendrá que crear otro conjunto de modelos que predicen cada una de las entradas para su modelo de oportunidad. Y, una vez que haga esto, tendrá muchos modelos alimentando su modelo principal, pero cada uno de los pequeños modelos tendrá un error de predicción, y estos serán compuestos, pero su modelo principal no saber acerca de esto y, como resultado, todos sus intervalos de predicción se desinflarán enormemente.
fuente