Intenté un método de pronóstico y quiero verificar si mi método es correcto o no.
Mi estudio compara diferentes tipos de fondos mutuos. Quiero usar el índice GCC como punto de referencia para uno de ellos, pero el problema es que el índice GCC se detuvo en septiembre de 2011 y mi estudio es de enero de 2003 a julio de 2014. Por lo tanto, traté de usar otro índice, el índice MSCI, hacer una regresión lineal, pero el problema es que al índice MSCI le faltan datos de septiembre de 2010.
Para evitar esto, hice lo siguiente. ¿Son válidos estos pasos?
Al índice MSCI le faltan datos para septiembre de 2010 hasta julio de 2012. Lo "proporcioné" aplicando promedios móviles para cinco observaciones. ¿Es válido este enfoque? Si es así, ¿cuántas observaciones debo usar?
Después de estimar los datos faltantes, realicé una regresión en el índice de CCG (como variable dependiente) versus el índice de MSCI (como variable independiente) para el período mutuamente disponible (de enero de 2007 a septiembre de 2011), luego corregí el modelo de todos los problemas. Para cada mes, reemplazo la x por los datos del índice MSCI para el período de descanso. ¿Es esto válido?
A continuación se muestran los datos en formato de valores separados por comas que contienen los años por filas y los meses por columnas. Los datos también están disponibles a través de este enlace .
Serie GCC:
,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
2002,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,117.709
2003,120.176,117.983,120.913,134.036,145.829,143.108,149.712,156.997,162.158,158.526,166.42,180.306
2004,185.367,185.604,200.433,218.923,226.493,230.492,249.953,262.295,275.088,295.005,328.197,336.817
2005,346.721,363.919,423.232,492.508,519.074,605.804,581.975,676.021,692.077,761.837,863.65,844.865
2006,947.402,993.004,909.894,732.646,598.877,686.258,634.835,658.295,672.233,677.234,491.163,488.911
2007,440.237,486.828,456.164,452.141,495.19,473.926,492.782,525.295,519.081,575.744,599.984,668.192
2008,626.203,681.292,616.841,676.242,657.467,654.66,635.478,603.639,527.326,396.904,338.696,308.085
2009,279.706,252.054,272.082,314.367,340.354,325.99,326.46,327.053,354.192,339.035,329.668,318.267
2010,309.847,321.98,345.594,335.045,311.363,299.555,310.802,306.523,315.496,324.153,323.256,334.802
2011,331.133,311.292,323.08,327.105,320.258,312.749,305.073,297.087,298.671,NA,NA,NA
Serie MSCI:
,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
2007,NA,NA,NA,NA,1000,958.645,1016.085,1049.468,1033.775,1118.854,1142.347,1298.223
2008,1197.656,1282.557,1164.874,1248.42,1227.061,1221.049,1161.246,1112.582,929.379,680.086,516.511,521.127
2009,487.562,450.331,478.255,560.667,605.143,598.611,609.559,615.73,662.891,655.639,628.404,602.14
2010,601.1,622.624,661.875,644.751,588.526,587.4,615.008,606.133,NA,NA,NA,NA
2011,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA
2012,NA,NA,NA,NA,NA,NA,NA,609.51,598.428,595.622,582.905,599.447
2013,627.561,619.581,636.284,632.099,651.995,651.39,687.194,676.76,694.575,704.806,727.625,739.842
2014,759.036,787.057,817.067,824.313,857.055,805.31,873.619,NA,NA,NA,NA,NA
fuente
Respuestas:
Mi sugerencia es similar a lo que usted propone, excepto que usaría un modelo de serie temporal en lugar de promedios móviles. El marco de trabajo de los modelos ARIMA también es adecuado para obtener pronósticos que incluyen no solo la serie MSCI como regresor, sino también retrasos de la serie GCC que también pueden capturar la dinámica de los datos.
Primero, puede ajustar un modelo ARIMA para la serie MSCI e interpolar las observaciones que faltan en esta serie. Luego, puede ajustar un modelo ARIMA para la serie GCC utilizando MSCI como regresores exógenos y obtener los pronósticos para GCC basados en este modelo. Al hacer esto, debe tener cuidado al tratar con los descansos que se observan gráficamente en la serie y que pueden distorsionar la selección y el ajuste del modelo ARIMA.
Esto es lo que obtengo haciendo este análisis
R
. Utilizo la funciónforecast::auto.arima
para hacer la selección del modelo ARIMA ytsoutliers::tso
detectar posibles cambios de nivel (LS), cambios temporales (TC) o valores atípicos aditivos (AO).Estos son los datos una vez cargados:
Paso 1: ajuste un modelo ARIMA a la serie MSCI
A pesar de que el gráfico revela la presencia de algunas pausas, no se detectaron valores atípicos
tso
. Esto puede deberse al hecho de que faltan varias observaciones en el medio de la muestra. Podemos lidiar con esto en dos pasos. Primero, ajuste un modelo ARIMA y úselo para interpolar observaciones faltantes; segundo, ajuste un modelo ARIMA para la verificación de series interpoladas para posibles LS, TC, AO y refine los valores interpolados si se encuentran cambios.Elija el modelo ARIMA para la serie MSCI:
Complete las observaciones faltantes siguiendo el enfoque discutido en mi respuesta a esta publicación :
Ajuste un modelo ARIMA a la serie completa
msci.filled
. Ahora se encuentran algunos valores atípicos. Sin embargo, utilizando opciones alternativas se detectaron diferentes valores atípicos. Mantendré el que se encontró en la mayoría de los casos, un cambio de nivel en octubre de 2008 (observación 18). Puede probar, por ejemplo, estas y otras opciones.El modelo elegido es ahora:
Use el modelo anterior para refinar la interpolación de las observaciones faltantes:
Las interpolaciones inicial y final se pueden comparar en un gráfico (no se muestra aquí para ahorrar espacio):
Paso 2: Ajuste un modelo ARIMA a GCC usando msci.filled2 como regresor exógeno
Ignoro las observaciones que faltan al comienzo de
msci.filled2
. En este punto, he encontrado algunas dificultades para usarauto.arima
junto contso
, así que probé con la mano varios modelos ARIMA entso
y finalmente eligieron el modelo ARIMA (1,1,0).La trama de GCC muestra un cambio a principios de 2008. Sin embargo, parece que ya fue capturada por el regresor MSCI y no se incluyeron regresores adicionales, excepto un valor añadido aditivo en noviembre de 2008.
La gráfica de los residuos no sugirió ninguna estructura de autocorrelación, pero la gráfica sugirió un cambio de nivel en noviembre de 2008 y un valor aditivo atípico en febrero de 2011. Sin embargo, al agregar las intervenciones correspondientes, el diagnóstico del modelo fue peor. Puede ser necesario un análisis adicional en este punto. Aquí, continuaré obteniendo los pronósticos basados en el último modelo
fit3
.fuente
fuente
2 Parece estar bien. Yo iría con eso.
En cuanto a 1. Sugeriría que entrene un modelo para predecir el CCG utilizando todas las funciones disponibles en el conjunto de datos (que no son NA durante el período de septiembre de 2011 en adelante) (omita las filas que tienen algún valor de NA antes de septiembre de 2011 durante el entrenamiento). El modelo debe ser muy bueno (use validación cruzada K-fold). Ahora pronostique el CCG para el período de septiembre de 2011 en adelante.
Alternativamente, puede entrenar un modelo que predice MSCI, usarlo para predecir los valores faltantes de MSCI. Ahora entrene un modelo para predecir GCC usando MSCI y luego pronostique GCC para el período de septiembre de 2011 en adelante
fuente