Estoy tratando de encontrar una manera de corregir los valores atípicos una vez que los encuentro / detecto en datos de series de tiempo. Algunos métodos, como nnetar en R, dan algunos errores para series de tiempo con valores atípicos grandes / grandes. Ya logré corregir los valores faltantes, pero los valores atípicos siguen dañando mis pronósticos ...
10
Respuestas:
Ahora hay una instalación en el paquete de pronóstico para R para identificar y reemplazar valores atípicos. (También maneja los valores faltantes). Como aparentemente ya está utilizando el paquete de pronóstico, esta podría ser una solución conveniente para usted. Por ejemplo:
La
tsclean()
función se ajustará a una tendencia robusta usando loess (para series no estacionales), o una tendencia robusta y componentes estacionales usando STL (para series estacionales). Los residuos se calculan y se calculan los siguientes límites:Para series temporales no estacionales, los valores atípicos se reemplazan por interpolación lineal. Para series temporales estacionales, el componente estacional del ajuste STL se elimina y la serie ajustada estacionalmente se interpola linealmente para reemplazar los valores atípicos, antes de volver a estacionalizar el resultado.
fuente
Cuando identifica un modelo ARIMA, debe identificar simultáneamente Pulsos / Cambios de nivel / Pulsos estacionales y / o Tendencias de hora local. Puede obtener material de lectura sobre los procedimientos de detección de intervención en http://www.ebay.com/ctg/Time-Series-Analysis-Univariate-and-Multivariate-Methods-David-P-Reilly-and-William-Wei-1999 - / 85697 y http://www.unc.edu/~jbhill/tsay.pdf . Es posible que tenga que buscar software comercial como SAS / SPSS / AUTOBOX para obtener resultados útiles, ya que el software gratuito que he visto es insuficiente. De paso, he contribuido con importantes mejoras técnicas en esta área a AUTOBOX.
EDITAR:
Un enfoque aún mejor es identificar los valores atípicos utilizando el riguroso método ARIMA más los procedimientos de detección de intervención que conducen a parámetros ARIMA robustos y un buen pronóstico. Ahora considere desarrollar pronósticos simulados que incorporen residuos re-muestreados libres de efectos de pulso. De esta manera, obtiene lo mejor de ambos mundos, a saber, un buen modelo y declaraciones de incertidumbre más realistas para los pronósticos que no asumen que los parámetros estimados del modelo son los valores de la población.
fuente
Estoy de acuerdo con @Aksakal. En lugar de eliminar los valores atípicos, un mejor enfoque sería utilizar algún tipo de procedimiento estadístico para tratar los valores atípicos. Le sugiero que gane sus datos. Si se implementa adecuadamente, la victoriaización puede ser relativamente sólida para los valores atípicos. En esta página: http://www.r-bloggers.com/winsorization/ , encontrará códigos R para implementar winsorisation. Si considera ganar sus datos, tendrá que pensar cuidadosamente sobre las colas de la distribución. ¿Se espera que los valores atípicos sean extremadamente bajos, o se espera que sean extremadamente altos, o tal vez ambos? Esto afectará si gana en el nivel de 5% o 10% y / o 95% o 99%.
fuente
En el contexto del pronóstico, eliminar los valores atípicos es muy peligroso. Por ejemplo, pronostica las ventas de una tienda de comestibles. Digamos que hubo una explosión de gas en el edificio vecino, lo que provocó que cerraras la tienda durante unos días. Esta fue la única vez que la tienda cerró en 10 años. Por lo tanto, obtiene la serie temporal, detecta el valor atípico, lo elimina y pronostica. Silenciosamente asumiste que nada como esto sucederá en el futuro. En sentido práctico, comprimió su varianza observada y las variaciones de coeficiente se redujeron. Por lo tanto, si muestra las bandas de confianza para su pronóstico, serán más estrechas de lo que hubieran sido si no eliminara el valor atípico.
Por supuesto, puede mantener el valor atípico y proceder como de costumbre, pero este tampoco es un buen enfoque. La razón es que este valor atípico sesgará los coeficientes.
Creo que un mejor enfoque en este caso es permitir una distribución de errores con colas gruesas, tal vez una distribución estable. En este caso, su valor atípico no sesgará demasiado los coeficientes. Estarán cerca de los coeficientes con un valor atípico eliminado. Sin embargo, el valor atípico aparecerá en la distribución del error, la varianza del error. Esencialmente, terminará con bandas de confianza de pronóstico más amplias.
Las bandas de confianza transmiten una información muy importante. Si pronostica que las ventas serían de $ 1,000,000 este mes, pero hay un 5% de posibilidades de que sean $ 10,000, esto afecta sus decisiones sobre gastos, administración de efectivo, etc.
fuente
Para realizar pronósticos usando (o no) un modelo con valores atípicos eliminados depende de la probabilidad de que ocurran valores atípicos en el futuro y de la distribución esperada de su efecto, si es que ocurre. ¿Los datos de entrenamiento son suficientes para aclarar esto? Un enfoque bayesiano debería ayudar ...
fuente