¿Se puede entrenar un modelo de P (Y | X) a través del descenso de gradiente estocástico a partir de muestras de P (X) sin iid y muestras de P (Y | X)?

10

Cuando se entrena un modelo parametrizado (por ejemplo, para maximizar la probabilidad) a través del descenso de gradiente estocástico en algún conjunto de datos, se supone comúnmente que las muestras de entrenamiento se extraen de la distribución de datos de entrenamiento. Entonces, si el objetivo es modelar una distribución conjunta , entonces cada muestra de entrenamiento (x_i, y_i) debe extraerse de esa distribución.P(X,Y)(xi,yi)

Si el objetivo es, en cambio, modelar una distribución condicional , entonces, ¿cómo cambia el requisito de iid, si es que lo hace?P(Y|X)

  1. ¿Debemos extraer cada muestra iid de la distribución conjunta?(xi,yi)
  2. ¿Deberíamos dibujar iid de , luego dibujar iid de ?xiP(X)yiP(Y|X)
  3. ¿Podemos dibujar no iid de (por ejemplo, correlacionado con el tiempo), y luego dibujar iid de ?xiP(X)yiP(Y|X)

¿Puedes comentar sobre la validez de estos tres enfoques para el descenso de gradiente estocástico? (O ayúdame a reformular la pregunta si es necesario).

Me gustaría hacer el # 3 si es posible. Mi aplicación está en aprendizaje de refuerzo, donde estoy usando un modelo condicional parametrizado como política de control. La secuencia de estados está altamente correlacionada, pero las acciones se muestrean a partir de una política estocástica condicionada por el estado. Las muestras resultantes (o un subconjunto de ellas) se utilizan para entrenar la política. (En otras palabras, imagine ejecutar una política de control durante mucho tiempo en algún entorno, reuniendo un conjunto de datos de muestras de estado / acción. Luego, aunque los estados se correlacionan con el tiempo, las acciones se generan independientemente, condicionadas por el estado). Esto es algo similar a la situación en este documento .xiyi(xi,yi)

Encontré un artículo, Ryabko, 2006, " Reconocimiento de patrones para datos condicionalmente independientes ", que al principio parecía relevante; sin embargo, allí la situación se invierte de lo que necesito, donde (la etiqueta / categoría / acción) se puede dibujar no iid de , y (el objeto / patrón / estado) se dibuja iid de .yiP(Y)xiP(X|Y)

Actualización: Dos documentos ( aquí y aquí ) mencionados en el documento de Ryabko parecen relevantes aquí. Asumen que proviene de un proceso arbitrario (por ejemplo, no iid, posiblemente no estacionario). Muestran que los estimadores de kernel y vecinos más cercanos son consistentes en este caso. Pero estoy más interesado en saber si la estimación basada en el descenso de gradiente estocástico es válida en esta situación.xi

Tyler Streeter
fuente
1
Tal vez me falta algo, y no he leído el documento, pero: estás dibujando no iid de y luego muestreando iid de . Ryabko (2006) está dibujando no iid de y luego muestreando iid de . Estos parecen lo mismo hasta el cambio de nombre. ¿Hay algo fundamentalmente diferente en los objetos e que hace que esta no sea la misma situación? xiP(X)yiP(YX)yiP(Y)xiP(XY)xy
Dougal
@Dougal: La diferencia es que los modelos de distribución condicional, como los campos aleatorios condicionales, tratan a e (las "entradas" y "salidas") de manera diferente ... modelan solo una dirección ( pero no ). XYP(Y|X)P(X|Y)
Tyler Streeter
2
Consideraría la siguiente analogía en este caso. Supongamos que y son dos series de tiempo correlacionadas (correlación en el tiempo). Nos gustaría descubrir una función , que es equivalente a encontrar . Si , que es el residual, es IID (por lo tanto, estacionario y no correlacionado), entonces el procedimiento de estimación converge sin sesgo. Básicamente, el procesamiento de la serie de tiempo en orden de tiempo o cualquier orden aleatorio no debería importar en un procedimiento MLE siempre que la probabilidad condicional se especifique correctamente y los residuos sean IID. YiXiYi=f(Xi;θ)P(Yi|Xi;θ)P(Yi|Xi;θ)
Cagdas Ozgenc

Respuestas:

1

Creo que podría hacer 2 o 3. Sin embargo, el problema con 3 es que al permitir distribuciones arbitrarias para X, incluye distribuciones que tendrían toda o casi toda la probabilidad concentrada en un pequeño intervalo en el espacio x. Esto dañaría la estimación general de P (Y | X) porque tendría pocos o ningún dato para ciertos valores de X.

Michael R. Chernick
fuente
Entonces, ¿está diciendo que con el enfoque # 3, obtendría un resultado imparcial con una varianza potencialmente alta?
Tyler Streeter
Si no hay datos en o cerca de un punto x entonces ni siquiera puede estimar P (Y | X = x ) y si solo hay unos pocos puntos, la varianza de la estimación será grande. 11
Michael R. Chernick
Sí, eso tiene sentido que la variación podría ser grande. Creo que mi principal preocupación es si el P (Y | X) estimado estará sesgado.
Tyler Streeter
No discutimos una estimación puntual. Si tiene estimaciones imparciales para P (X), P (Y) y P (X | Y) y las conecta a la fórmula P (Y | X) = P (X | Y) P (Y) / P (X) obtendrá una estimación sesgada.
Michael R. Chernick
Debo enfatizar que estoy hablando de estimar P (Y | X) a través del descenso de gradiente estocástico, en cuyo caso el orden de las muestras de entrenamiento puede influir en qué tan rápido o si converge al modelo correcto. No solo estoy usando promedios de muestra, donde el orden de las muestras no importa.
Tyler Streeter