Actualización de la probabilidad de clasificación en regresión logística a través del tiempo

19

Estoy construyendo un modelo predictivo que pronostica la probabilidad de éxito de un estudiante al final de un período. Me interesa específicamente si el estudiante tiene éxito o no, donde el éxito generalmente se define como completar el curso y lograr el 70% o más puntos del total de puntos posibles.

Cuando implemente el modelo, la estimación de la probabilidad de éxito debe actualizarse a lo largo del tiempo a medida que haya más información disponible, idealmente inmediatamente después de que algo ocurra, como cuando un estudiante envía una tarea u obtiene una calificación en una. Esta actualización me suena un poco bayesiana, pero dado mi entrenamiento en estadísticas educativas, está un poco fuera de mi zona de confort.

Hasta ahora he estado usando regresión logística (en realidad lazo) con un conjunto de datos históricos que contiene instantáneas basadas en la semana. Este conjunto de datos tiene observaciones correlacionadas, ya que cada estudiante tiene observaciones ; Las observaciones para un estudiante están correlacionadas. No estoy modelando específicamente la correlación dentro de las observaciones semanales de un estudiante en particular. Creo que solo necesitaría considerar eso en un entorno de inferencia ya que los errores estándar serían demasiado pequeños. Creo, pero no estoy seguro de esto, que el único problema que surge de las observaciones correlacionadas es que debo tener cuidado cuando valido de forma cruzada para mantener las observaciones agrupadas en un subconjunto de datos, de modo que no obtenga tasas de error fuera de la muestra artificialmente bajas basadas en hacer predicciones sobre una persona que el modelo ya ha visto.TermLength/7

Estoy usando el paquete glmnet de R para hacer un lazo con un modelo logístico para generar una probabilidad de éxito / fracaso y elegir automáticamente predictores para un curso en particular. He estado usando la variable de la semana como factor, he interactuado con todos los demás predictores. No creo que esto difiera en general de solo estimar modelos individuales basados ​​en la semana, excepto que da una idea de cómo puede haber algún modelo común que se mantenga a lo largo del plazo que se ajusta a través de varios factores de ajuste de riesgo en diferentes semanas.

Mi pregunta principal es esta: ¿Existe una mejor manera de actualizar las probabilidades de clasificación a lo largo del tiempo en lugar de simplemente dividir el conjunto de datos en instantáneas semanales (u otras basadas en intervalos), introduciendo una variable de factor de período de tiempo que interactúa con cada otra característica, y utilizando características acumulativas (puntos acumulados ganados, días acumulados en clase, etc.)?

Mi segunda pregunta es: ¿me estoy perdiendo algo crítico aquí sobre el modelado predictivo con observaciones correlacionadas?

Mi tercera pregunta es: ¿cómo puedo generalizar esto a una actualización en tiempo real, dado que estoy haciendo instantáneas semanales? Estoy planeando simplemente conectar variables para el intervalo semanal actual, pero esto me parece muy difícil.

Para su información, estoy entrenado en estadísticas educativas aplicadas, pero tengo experiencia en estadísticas matemáticas de hace mucho tiempo. Puedo hacer algo más sofisticado si tiene sentido, pero necesito que me lo expliquen en términos relativamente accesibles.

Anne Z.
fuente

Respuestas:

4

No puedes llegar desde aquí. Necesitas comenzar con un modelo diferente. Mantendría las instantáneas semanales y construiría un modelo estocástico alrededor de las transiciones en la variable de estado de cada estudiante. Supongamos que hay 10 semanas, lo que da 11 puntos de "decisión", . El estado en es , donde es 1 o 0, según el alumno esté matriculado o no ; y es el puntaje en ese punto (la suma de los puntajes de la prueba y la tarea hasta la fecha). Los valores iniciales son . Tiene dos transiciones de las que preocuparse: y la distribución de .t i ( Z i , S i ) Z i S i ( 1 , 0 ) P r o b ( z i = 0 | s i - 1 ) S it0,t1,,tnti(Zi,Si)ZiSi(1,0)Prob(zi=0|si1)Si

Las probabilidades de abandono no son estacionarias, ya que obtendrá un atracón de abandonos justo antes de la fecha final de abandono sin penalización. Pero puede estimarlos a partir de datos pasados. También puede estimar la probabilidad de deserción en función del rendimiento actual (pésimo).

Los puntajes son una caminata aleatoria en un resultado binomial (número de respuestas correctas en una prueba de ítems, por ejemplo). Probablemente pueda asumir independencia condicional: suponga un parámetro de "talento" latente para cada estudiante y, condicional a ese valor, cada puntaje nuevo es independiente del rendimiento actual. Podrías probar esta suposición contra tus datos históricos ... ¿los estudiantes que fallan cambian sus hábitos de estudio y logran una victoria? Pero la mayoría de los estudiantes se comportan fielmente a la forma ... por lo que un modelo condicionalmente independiente debería funcionar bien.nSn

Básicamente, un estudiante falla si una puntuación pasa a 0, o la puntuación no supera el umbral de aprobación del 70 \%.SZS

Veamos más de cerca el procesoPara simplificar el modelo, suponga que la evaluación implica obtener 70 puntos o más de un total de 100 puntos posibles, obtenidos de 10 ítems de prueba cada semana.S

Al inicio, la probabilidad de aprobación de un estudiante es simplemente la tasa de aprobación de la clase anterior.

En el tiempo 1, el estudiante obtuvo puntos (o abandonó). Pasa si puede ganar al menos puntos de 90. Este es un problema binomial, que puedo calcular fácilmente si sé la probabilidad de éxito del estudiante. Esto ya no será el "promedio de clase"; Necesito adaptarme a la luz del éxito del estudiante hasta ahora. Para esto, usaría una tabla de experiencias anteriores, pero podría hacer un promedio ponderado de la tasa de éxito general de la clase y el éxito personal del estudiante. La regla de Bayes debería ayudar aquí. 70 - S 1S170S1

Como beneficio adicional, puede calcular un rango de probabilidades, que debería reducirse a medida que avanza el término. De hecho, los estudiantes fuertes cruzarán la marca del 70 \% antes del final del período, y su éxito será seguro en ese punto. Para los estudiantes débiles, el fracaso también será seguro antes del final.

RE: pregunta 3. ¿Deberías ir al tiempo continuo? No lo haría, porque eso pone a uno en el ámbito de los procesos estocásticos de tiempo continuo y las matemáticas involucradas están por encima de mi calificación salarial. No solo eso, es poco probable que obtenga un resultado sustancialmente diferente.

La mejor manera de actualizar el modelo que he descrito no es ir al tiempo continuo, sino ajustar las probabilidades de transición en función de la experiencia previa. Quizás los estudiantes débiles se retrasen más de lo que predeciría un modelo de independencia. Incorporar inhomegeneity mejoraría el modelo más que pasar de tiempo discreto a continuo.

Placidia
fuente
0

Cuando entreno modelos predictivos para un tipo similar de despliegue, me aseguro de que mis conjuntos de datos tengan algún tipo de Term_End_Date para poder recuperar el tiempo restante hasta que termine el plazo. Esto probablemente terminará siendo un predictor significativo en su modelo.

Con respecto a la cuestión de las observaciones correlacionadas, supongo que importa cuán grande sea el repositorio de datos que tiene. Si es posible, seleccionaría al azar 1 observación para cada estudiante, estratificada en [# de semanas hasta el final del período]. También tomaría términos antiguos, si es posible. Si no tiene suficientes datos para hacerlo, tal vez pueda probar un método de muestreo como bootstrap.

Creo que lo más importante si tiene un conjunto de datos pequeño es mantener suficientes datos como reserva para asegurarse de que su modelo final sea estable.

Creo que cuando haya terminado y tenga una fórmula de puntuación, será bastante fácil de implementar. Pero sí, aún debe estar conectando las variables x semanales que necesitará para calcular la puntuación, pero esto suena más como un problema de recopilación de datos y menos sobre la implementación del modelo.

Josh
fuente