Traducción del problema de aprendizaje automático al marco de regresión

12

Supongamos que tengo un panel de variables explicativas , para , , así como un vector de variables dependientes de resultados binarios . Por lo tanto, solo se observa en el momento final y no en ningún momento anterior. El caso totalmente general es tener múltiples para para cada unidad en cada momento , pero centrémonos en el caso por brevedad.Xitt = 1 . . . T Y i T Y T X i j t j = 1 ... K i t K = 1i=1...Nt=1...TYiTYTXijtj=1...KitK=1

Las aplicaciones de tales pares "desequilibrados" con variables explicativas temporales correlacionadas son, por ejemplo, (precios diarios de acciones, dividendos trimestrales), (informes meteorológicos diarios, huracanes anuales) o (características de posición de ajedrez después de cada movimiento, resultado de ganancia / pérdida en El final del juego).(X,Y)

Estoy interesado en los coeficientes de regresión (posiblemente no lineales) para hacer predicciones de , sabiendo que en los datos de entrenamiento, dadas las primeras observaciones de para , conduce al resultado finalβt X i t t < T Y i TYitXitt<TYiT

Y^it=f(k=1tXikβk),t=1...T

Viniendo de un fondo econométrico, no he visto muchos modelos de regresión aplicados a tales datos. OTOH, he visto las siguientes técnicas de aprendizaje automático que se aplican a dichos datos:

  1. haciendo aprendizaje supervisado en todo el conjunto de datos, por ejemplo, minimizando

i,t12(Yitf(Xitβt))2

simplemente extrapolando / imputando la observada a todos los puntos anteriores en el tiempoY

YitYiT,t=1...T1

Esto se siente "mal" porque no tendrá en cuenta la correlación temporal entre los diferentes puntos en el tiempo.

  1. haciendo aprendizaje de refuerzo como la diferencia temporal con el parámetro de aprendizaje y el parámetro de descuento , y resolviendo recursivamente través de la propagación hacia atrás a partir deλαλ t = Tβtt=T

Δβt=α(Y^t+1Y^t)k=1tλtkβY^k

con el gradiente de con respecto a . f ( ) ββY^f()β

Esto parece más "correcto" porque tiene en cuenta la estructura temporal, pero los parámetros y son algo "ad hoc".λαλ

Pregunta : ¿existe literatura sobre cómo mapear las técnicas de aprendizaje supervisadas / de refuerzo anteriores en un marco de regresión como se usa en la estadística / econometría clásica? En particular, me gustaría poder estimar los parámetros en "one go" (es decir, para todos los simultáneamente) haciendo mínimos cuadrados (no lineales) o máxima verosimilitud en modelos como t = 1 ... Tβtt=1...T

YiT=f(t=1TXitβt)+ϵi

También me interesaría saber si los metaparámetros de aprendizaje de diferencia temporal y podrían recuperarse de una formulación de máxima verosimilitud.λαλ

TemplateRex
fuente
¿Podría aclarar la formulación en el tercer párrafo? Escribe que desea predecir partir de , , pero la siguiente fórmula sugiere que desea predecir . X i t t < T Y i tYiTXitt<TYit
NRH
@NRH en realidad, solo observo , pero lo que he visto en la literatura sobre aprendizaje supervisado es que imputan que observado sea ​​igual a y luego hacen el ajuste para explicar realmente esta falsa de (esto se hace en aplicaciones de juego, donde se ajusta una función de evaluación para cada posición en el resultado final del juego). Lo siento si esto no estaba claro en mi formulación inicial. En cualquier caso, sería el "resultado" predicho (en aplicaciones de juegos) dados los eventos observados . Y i t Y i T Y i t X i t Y i t X i tYiTYitYiTYitXitY^itXit
TemplateRex
Entiendo la configuración y lo que observa, pero su formulación en la pregunta no está clara. ¿Desea entrenar un modelo para predecir medida que escribe en palabras, o desea entrenar un modelo para predecir para todas las como sugieren las fórmulas? Quizás sea solo un error tipográfico. Cuando escribe "... predicción de ...", ¿quiere decir "... predicción de ..."? Y i t t Y i T Y i tYiTYittYiTYit
NRH
No está claro por qué quieres hacer esto. Si puede explicar la aplicación práctica real, puede obtener respuestas más claras. En general, la mejor predicción para cada intervalo de tiempo será simplemente hacer una regresión de en los datos disponibles por separado para cada t. No es obvio que un enfoque simultáneo tenga algún beneficio. Creo que debe especificar el modelo estadístico para su conjunto de datos y luego tal vez los beneficios sean más claros. X 1 , , X tYTX1,,Xt
seanv507
@NRH, sí, quiero predecir partir de sabiendo que conduce al resultado en los datos de entrenamiento, para tomar acciones óptimas para los datos de prueba donde también observo pero aún no he observado el resultado. Actualizaré mi formulación. X i t Y i T X i tYitXitYiTXit
TemplateRex

Respuestas:

1

La descripción del problema no es del todo clara para mí, así que trato de adivinar algunas suposiciones. Si esto no responde a su pregunta, al menos podría ayudar a aclarar más los problemas.

Lo primero que no me queda claro son los datos en los que desea basar su predicción. Si desea predecir basándose en los datos observados hasta entonces un enfoque recursivo como en su método 2. no tiene sentido ya que esto usaría datos futuros, es decir, con . t < T X τ τ > tYTt<TXττ>t

En segundo lugar, no indica cuáles serán las propiedades de su predicho . Generalmente, dada la información en el tiempo la expectativa condicional es el "mejor predictor" de en el sentido L2. En caso de que realmente quiera predecir la expectativa condicional, los mínimos cuadrados ordinarios es el método de elección para la estimación práctica.X 1 , , X t t < T Y t = E [ Y TX 1 , , X t ] Y TYtX1,,Xtt<TYt=E[YTX1,,Xt]YT

Además, no entiendo su comentario sobre las correlaciones que no se reflejan en la regresión basada en . Esto incorpora todo lo que sabe hasta incluyendo las correlaciones entre sus observaciones. tX1,,Xtt

Resumiendo y formulando esto como una respuesta: si desea hacer una predicción óptima en el sentido L2, basándose solo en los datos observados hasta , puede usar la regresión de mínimos cuadrados.t<T

gg
fuente
en los datos de entrenamiento, quiero utilizar el hecho de que una observación dada conducirá estadísticamente al resultado para predecir para los datos de prueba donde no observo hasta después. Si, por ejemplo, sabe que después de 3 días ventosos es probable que llueva el día 7, desea utilizar esa información para decirle a la gente que traiga paraguas después del fin de semana después de unos días ventosos antes. Y i T Y i t Y i TXitYiTY^itYiT
TemplateRex
0

La ventaja de las diferencias temporales es que te permiten aprender de episodios incompletos. Por lo tanto, las secuencias en las que no ha llegado a la Y final todavía se pueden usar para adaptarse al modelo; estimaciones posteriores se utilizan en su lugar. El efecto es similar a la imputación de datos ocultos; implícitamente estás imputando el resto de la secuencia de acuerdo con tu modelo actual.
Los modelos de diferencia temporal normalmente se entrenan por descenso de gradiente estocástico . controla la tasa de aprendizaje. Demasiado alto y el método divergerá. Demasiado bajo y la convergencia a un óptimo local será muy lenta. Pero la convergencia siempre debe ser con el mismo modelo. Aquí,γ γ = 1α
γcontrola el esfuerzo relativo dado a las predicciones dependiendo de qué tan lejos estén del final de una secuencia. Debido a que estas secuencias tienen una longitud finita, puede establecer esto en , para poner el mismo peso en todas las estimaciones. γ=1

nsweeney
fuente
αγ
αγ