Me gustaría usar un modelo de regresión logística binaria en el contexto de la transmisión de datos (series temporales multidimensionales) para predecir el valor de la variable dependiente de los datos (es decir, la fila) que acaba de llegar, dadas las observaciones pasadas. Hasta donde sé, la regresión logística se usa tradicionalmente para el análisis post mortem, donde cada variable dependiente ya se ha establecido (ya sea por inspección o por la naturaleza del estudio).
Sin embargo, lo que sucede en el caso de series de tiempo, donde queremos hacer una predicción (sobre la marcha) sobre la variable dependiente en términos de datos históricos (por ejemplo, en una ventana de tiempo de los últimos segundos) y, por supuesto, la anterior estimaciones de la variable dependiente?
Y si ve el sistema anterior a lo largo del tiempo, ¿cómo debería construirse para que la regresión funcione? ¿Tenemos que entrenarlo primero etiquetando, digamos, las primeras 50 filas de nuestros datos (es decir, estableciendo la variable dependiente en 0 o 1) y luego usar la estimación actual del vector para estimar la nueva probabilidad de la ¿la variable dependiente es 0 o 1 para los datos que acaban de llegar (es decir, la nueva fila que se acaba de agregar al sistema)?
Para aclarar mi problema, estoy tratando de construir un sistema que analice un conjunto de datos fila por fila e intente hacer una predicción de un resultado binario (variable dependiente), dado el conocimiento (observación o estimación) de todos los dependientes o explicativos anteriores variables que han llegado a una ventana de tiempo fijo. Mi sistema está en Rerl y usa R para la inferencia.
fuente
Respuestas:
Hay dos métodos a considerar:
Solo use las últimas N muestras de entrada. Suponiendo que su señal de entrada es de dimensión D, entonces tiene muestras N * D por etiqueta de verdad de tierra. De esta forma, puede entrenar utilizando cualquier clasificador que desee, incluida la regresión logística. De esta manera, cada salida se considera independiente de todas las demás salidas.
Use las últimas N muestras de entrada y las últimas N salidas que ha generado. El problema es entonces similar a la decodificación de viterbi . Puede generar una puntuación no binaria basada en las muestras de entrada y combinar la puntuación de varias muestras utilizando un decodificador viterbi. Esto es mejor que el método 1. si ahora tiene algo sobre la relación temporal entre las salidas.
fuente