Recientemente me encontré con un artículo fascinante sobre la predicción de futuros rendimientos del mercado de valores. El autor presenta el siguiente gráfico y cita un R ^ 2 de 0.913. Esto haría que el método del autor fuera muy superior a cualquier cosa que haya visto sobre el tema (la mayoría argumenta que el mercado de valores es impredecible).
El autor describe su método con gran detalle y proporciona una teoría sustancial para respaldar los resultados. Luego leí un segundo artículo crítico que hacía referencia a este artículo: El mito de la previsibilidad a largo plazo . Al parecer, la gente se ha estado enamorando de esta ilusión durante décadas. Desafortunadamente, realmente no entiendo el papel.
Esto me lleva a las siguientes preguntas:
- ¿La falsa confianza de las predicciones a largo plazo surge debido al uso del mismo conjunto de datos tanto para la capacitación como para la validación del modelo? ¿El problema desaparecería si los datos de capacitación y validación se extrajeran de períodos de tiempo separados y no superpuestos?
- Además de validar en el conjunto de entrenamiento, ¿por qué este problema se vuelve más pronunciado en horizontes más largos?
- En general, ¿cómo puedo superar este problema cuando entreno modelos que deben hacer predicciones a largo plazo?
Respuestas:
Creo que una respuesta simple es que uno no quiere medir R ^ 2 en la escala original de la serie de tiempo. Si el pronóstico de uno es puramente una copia del último valor de serie de tiempo visto, el R ^ 2 sería enorme. Ejemplo:
Esto podría llamarse un caso espurio. Estoy obteniendo el valor 0,96, mientras que este pronóstico es totalmente tonto.
R ^ 2 dará un valor honesto si se ha medido utilizando tiempos fijos, por ejemplo, primeras diferencias de y e y-hat.
fuente
El problema no surge porque estamos usando el mismo conjunto de datos para capacitación y validación. Surge debido al efecto de la persistencia de las variables en los errores de muestreo de aumento y los pequeños efectos en horizontes de tiempo más largos. Como se indica en el artículo, incluso si no puede predecir los futuros rendimientos del mercado de valores a partir de su variable de interés, esperamosR2 así como los coeficientes de regresión para ser aproximadamente proporcionales al horizonte temporal si las variables son persistentes. Esto se debe a (pág. 1584):
a) cualquier extracción inusual de las devoluciones en el momentot influirá en los rendimientos de k períodos, donde k es el horizonte del tiempo
b) un regresor persistente tendrá valores muy similares parat , t−1 , t−2 , .., t−k
y así "El impacto del sorteo inusual será más o menosk veces mayor en la regresión de horizonte largo que en la regresión de un período ". En el artículo vinculado que cita el muy alto R2 , el horizonte temporal es de diez años, los datos están disponibles trimestralmente, por lo que un horizonte temporal de 10 años (horizonte temporal k=40 ) la inflación en R2 probablemente será muy sustancial.
fuente