Supongamos que tengo un panel de variables explicativas , para , , así como un vector de variables dependientes de resultados binarios . Por lo tanto, solo se observa en el momento final y no en ningún momento anterior. El caso totalmente general es tener múltiples para para cada unidad en cada momento , pero centrémonos en el caso por brevedad.t = 1 . . . T Y i T Y T X i j t j = 1 ... K i t K = 1
Las aplicaciones de tales pares "desequilibrados" con variables explicativas temporales correlacionadas son, por ejemplo, (precios diarios de acciones, dividendos trimestrales), (informes meteorológicos diarios, huracanes anuales) o (características de posición de ajedrez después de cada movimiento, resultado de ganancia / pérdida en El final del juego).
Estoy interesado en los coeficientes de regresión (posiblemente no lineales) para hacer predicciones de , sabiendo que en los datos de entrenamiento, dadas las primeras observaciones de para , conduce al resultado final X i t t < T Y i T
Viniendo de un fondo econométrico, no he visto muchos modelos de regresión aplicados a tales datos. OTOH, he visto las siguientes técnicas de aprendizaje automático que se aplican a dichos datos:
- haciendo aprendizaje supervisado en todo el conjunto de datos, por ejemplo, minimizando
simplemente extrapolando / imputando la observada a todos los puntos anteriores en el tiempo
Esto se siente "mal" porque no tendrá en cuenta la correlación temporal entre los diferentes puntos en el tiempo.
- haciendo aprendizaje de refuerzo como la diferencia temporal con el parámetro de aprendizaje y el parámetro de descuento , y resolviendo recursivamente través de la propagación hacia atrás a partir deλ t = T
con el gradiente de con respecto a . f ( ) β
Esto parece más "correcto" porque tiene en cuenta la estructura temporal, pero los parámetros y son algo "ad hoc".λ
Pregunta : ¿existe literatura sobre cómo mapear las técnicas de aprendizaje supervisadas / de refuerzo anteriores en un marco de regresión como se usa en la estadística / econometría clásica? En particular, me gustaría poder estimar los parámetros en "one go" (es decir, para todos los simultáneamente) haciendo mínimos cuadrados (no lineales) o máxima verosimilitud en modelos como t = 1 ... T
También me interesaría saber si los metaparámetros de aprendizaje de diferencia temporal y podrían recuperarse de una formulación de máxima verosimilitud.λ
fuente
Respuestas:
La descripción del problema no es del todo clara para mí, así que trato de adivinar algunas suposiciones. Si esto no responde a su pregunta, al menos podría ayudar a aclarar más los problemas.
Lo primero que no me queda claro son los datos en los que desea basar su predicción. Si desea predecir basándose en los datos observados hasta entonces un enfoque recursivo como en su método 2. no tiene sentido ya que esto usaría datos futuros, es decir, con . t < T X τ τ > tYT t<T Xτ τ>t
En segundo lugar, no indica cuáles serán las propiedades de su predicho . Generalmente, dada la información en el tiempo la expectativa condicional es el "mejor predictor" de en el sentido L2. En caso de que realmente quiera predecir la expectativa condicional, los mínimos cuadrados ordinarios es el método de elección para la estimación práctica.X 1 , … , X t t < T Y t = E [ Y T ∣ X 1 , … , X t ] Y TYt X1,…,Xt t<T Yt=E[YT∣X1,…,Xt] YT
Además, no entiendo su comentario sobre las correlaciones que no se reflejan en la regresión basada en . Esto incorpora todo lo que sabe hasta incluyendo las correlaciones entre sus observaciones. tX1,…,Xt t
Resumiendo y formulando esto como una respuesta: si desea hacer una predicción óptima en el sentido L2, basándose solo en los datos observados hasta , puede usar la regresión de mínimos cuadrados.t<T
fuente
La ventaja de las diferencias temporales es que te permiten aprender de episodios incompletos. Por lo tanto, las secuencias en las que no ha llegado a la Y final todavía se pueden usar para adaptarse al modelo; estimaciones posteriores se utilizan en su lugar. El efecto es similar a la imputación de datos ocultos; implícitamente estás imputando el resto de la secuencia de acuerdo con tu modelo actual.α
γ controla el esfuerzo relativo dado a las predicciones dependiendo de qué tan lejos estén del final de una secuencia. Debido a que estas secuencias tienen una longitud finita, puede establecer esto en , para poner el mismo peso en todas las estimaciones. γ=1
Los modelos de diferencia temporal normalmente se entrenan por descenso de gradiente estocástico . controla la tasa de aprendizaje. Demasiado alto y el método divergerá. Demasiado bajo y la convergencia a un óptimo local será muy lenta. Pero la convergencia siempre debe ser con el mismo modelo. Aquí,γ γ = 1
fuente