Ajustes al pronóstico (regresión lineal)

11

Divulgación completa: no soy estadístico ni pretendo serlo. Soy un humilde administrador de TI. Por favor, juega gentil conmigo. :)

Soy responsable de recopilar y pronosticar el uso del almacenamiento en disco para nuestra empresa. Recopilamos nuestro uso de almacenamiento mensualmente y usamos una simple regresión lineal de doce meses para los pronósticos (en otras palabras, solo se consideran los doce meses anteriores de datos al hacer una proyección). Utilizamos esta información para la asignación y planificación de gastos de capital, por ejemplo, "Según este modelo, tendremos que comprar x cantidad si se almacena en y meses para satisfacer nuestras necesidades". Todo esto funciona lo suficientemente bien como para satisfacer nuestras necesidades.

Periódicamente, tenemos grandes movimientos de una sola vez en nuestros números que desalientan el pronóstico. Por ejemplo, alguien encuentra 500 GB de copias de seguridad antiguas que ya no se necesitan y las elimina. ¡Bien por ellos por recuperar el espacio! Sin embargo, nuestros pronósticos ahora están muy sesgados por esta gran caída en un mes. Siempre hemos aceptado que una caída como esta tarda entre 9 y 10 meses en salir de los modelos, pero eso puede ser mucho tiempo si estamos entrando en la temporada de planificación de gastos de capital.

Me pregunto si hay una manera de manejar estas variaciones de una sola vez, de modo que los valores pronosticados no se vean afectados tanto (por ejemplo, la pendiente de la línea no cambia tan dramáticamente), pero se tienen en cuenta (por ejemplo, un cambio de una sola vez en el valor de y asociado con un punto particular en el tiempo). Nuestros primeros intentos de abordar esto han arrojado algunos resultados feos (por ejemplo, curvas de crecimiento exponencial). Realizamos todo nuestro procesamiento en SQL Server si eso es importante.

sbrown
fuente
Excelente pregunta Solo una aclaración rápida. ¿Le gustaría predecir estos eventos o, una vez que ocurran, ajustar las predicciones del modelo dada su nueva información?
Matthew Drury
1
Correcto, no está claro si está tratando de "suavizar" estos eventos raros como el ejemplo de 500GB para que no afecten tanto sus resultados o si está tratando de contabilizarlos más, ya que desea capturar los ajustes de perra para almacenar ¿son hechos? La diferencia es sutil: en el primero, casi quieres ignorar el nuevo punto (evento raro), pero en el segundo, quieres enfatizar el punto (evento raro). Si es el primero, la regresión robusta es probablemente un método simple para usted, ya que ya está utilizando la regresión lineal. Ver aquí: ats.ucla.edu/stat/r/dae/rreg.htm
StatsStudent
Además, ¿utiliza algún software para hacer sus predicciones y utiliza intervalos de confianza?
StatsStudent
Puedo agregar un ajuste después del hecho. De hecho, la mayoría de las veces no sabré acerca de una desviación importante hasta que mire los números del próximo mes y vea un gran cambio. No estoy usando ningún software para hacer las predicciones; solo un procedimiento almacenado en SQL Server para calcular mis valores de regresión.
bronceado
Reacciones rápidas: (a) ¿Probablemente primero ajuste un AR muy básico (1) a los cambios en el uso del disco de registro? Básicamente, estaría estimando una tasa de crecimiento a largo plazo en el uso del disco, y qué tan rápido la tasa de crecimiento en el uso del disco vuelve a esa tendencia después de un shock. (aa) También podría usar otros datos y ajustar un VAR (autorregresión vectorial). (b) descartar todos los datos> 12 meses puede no ser lo más óptimo. (c) OLS regular minimiza la suma de cuadrados. Podría usar una función de penalización diferente (por ejemplo, Huber) que es más robusta para los valores atípicos.
Matthew Gunn

Respuestas:

0

Aquí hay una sugerencia simple. No sé si funciona para usted y tal vez debería haberlo hecho como un comentario, pero parece que necesita más privilegios para hacer un comentario que para responder.

Si entiendo correctamente, las cifras que está utilizando son las cantidades de almacenamiento que está utilizando cada mes. Probablemente estos usualmente aumentan, y desea predecir cuál será la cantidad en algún momento en el futuro si las tendencias continúan. Una vez que se da cuenta de que su gran cambio ha sucedido (por ejemplo, que se han lanzado 500 GB), ¿puede regresar y cambiar las cifras de los meses anteriores (por ejemplo, eliminar 500 GB de todos ellos)? Básicamente, lo que estaría haciendo es ajustar las cifras de los meses anteriores a lo que deberían haber sido, si supiera lo que sabe ahora.

Por supuesto, no recomiendo esto a menos que te asegures de poder volver a las viejas figuras. Pero el pronóstico que desea hacer parece que incluso podría hacerse en Excel, en cuyo caso puede tener tantas versiones como desee.

MikeG
fuente