El mito de la previsibilidad a largo plazo

8

Recientemente me encontré con un artículo fascinante sobre la predicción de futuros rendimientos del mercado de valores. El autor presenta el siguiente gráfico y cita un R ^ 2 de 0.913. Esto haría que el método del autor fuera muy superior a cualquier cosa que haya visto sobre el tema (la mayoría argumenta que el mercado de valores es impredecible).

ingrese la descripción de la imagen aquí

El autor describe su método con gran detalle y proporciona una teoría sustancial para respaldar los resultados. Luego leí un segundo artículo crítico que hacía referencia a este artículo: El mito de la previsibilidad a largo plazo . Al parecer, la gente se ha estado enamorando de esta ilusión durante décadas. Desafortunadamente, realmente no entiendo el papel.

Esto me lleva a las siguientes preguntas:

  • ¿La falsa confianza de las predicciones a largo plazo surge debido al uso del mismo conjunto de datos tanto para la capacitación como para la validación del modelo? ¿El problema desaparecería si los datos de capacitación y validación se extrajeran de períodos de tiempo separados y no superpuestos?
  • Además de validar en el conjunto de entrenamiento, ¿por qué este problema se vuelve más pronunciado en horizontes más largos?
  • En general, ¿cómo puedo superar este problema cuando entreno modelos que deben hacer predicciones a largo plazo?
Ryan Zotti
fuente
1
No estoy seguro si se encontró con este hilo en CV, donde hice referencia a un par de documentos sobre este tema. stats.stackexchange.com/questions/294489/…
horaceT

Respuestas:

4

Creo que una respuesta simple es que uno no quiere medir R ^ 2 en la escala original de la serie de tiempo. Si el pronóstico de uno es puramente una copia del último valor de serie de tiempo visto, el R ^ 2 sería enorme. Ejemplo:

ingrese la descripción de la imagen aquí

Esto podría llamarse un caso espurio. Estoy obteniendo el valor 0,96, mientras que este pronóstico es totalmente tonto.

R ^ 2 dará un valor honesto si se ha medido utilizando tiempos fijos, por ejemplo, primeras diferencias de y e y-hat.

Alexey Burnakov
fuente
1

El problema no surge porque estamos usando el mismo conjunto de datos para capacitación y validación. Surge debido al efecto de la persistencia de las variables en los errores de muestreo de aumento y los pequeños efectos en horizontes de tiempo más largos. Como se indica en el artículo, incluso si no puede predecir los futuros rendimientos del mercado de valores a partir de su variable de interés, esperamosR2así como los coeficientes de regresión para ser aproximadamente proporcionales al horizonte temporal si las variables son persistentes. Esto se debe a (pág. 1584):

a) cualquier extracción inusual de las devoluciones en el momento t influirá en los rendimientos de k períodos, donde k es el horizonte del tiempo

b) un regresor persistente tendrá valores muy similares para t, t1, t2, .., tk

y así "El impacto del sorteo inusual será más o menos k veces mayor en la regresión de horizonte largo que en la regresión de un período ". En el artículo vinculado que cita el muy alto R2, el horizonte temporal es de diez años, los datos están disponibles trimestralmente, por lo que un horizonte temporal de 10 años (horizonte temporal k=40) la inflación en R2 probablemente será muy sustancial.

Chris Novak
fuente