Estoy tratando de predecir el éxito o el fracaso de los estudiantes en función de algunas características con un modelo de regresión logística. Para mejorar el rendimiento del modelo, ya he pensado en dividir a los estudiantes en diferentes grupos basados en diferencias obvias y construir modelos separados para cada grupo. Pero creo que podría ser difícil identificar estos grupos mediante un examen, así que pensé en dividir a los estudiantes agrupando sus características. ¿Es esta una práctica común en la construcción de tales modelos? ¿Sugeriría que lo divida en grupos obvios (por ejemplo, estudiantes de primer trimestre versus estudiantes que regresan) y luego realice la agrupación en esos grupos, o agrupación desde el principio?
Para intentar aclarar:Lo que quiero decir es que estoy considerando usar un algoritmo de agrupamiento para dividir mi conjunto de entrenamiento para la regresión logística en grupos. Luego haría regresiones logísticas separadas para cada uno de esos grupos. Luego, cuando use la regresión logística para predecir el resultado para un estudiante, elegiría qué modelo usar según el grupo que mejor se adapte.
Quizás podría hacer lo mismo al incluir un identificador de grupo, por ejemplo, un 1 si el alumno regresa y un 0 si no.
Ahora me tiene pensando si podría ser ventajoso agrupar el conjunto de datos de entrenamiento y usar su etiqueta de agrupamiento como una característica en la regresión logística, en lugar de construir modelos de regresión logística separados para cada población.
Si es útil incluir un identificador de grupo para aquellos que regresan estudiantes vs. nuevos estudiantes, ¿podría ser útil también expandir la lista de grupos? La agrupación parece una forma natural de hacer esto.
Espero que esté claro ...
Respuestas:
Creo que si tiene una diferencia significativa en su variable dependiente entre sus grupos, entonces el enfoque de agrupamiento primero será DEFINITIVAMENTE útil. Independientemente de su algoritmo de aprendizaje elegido.
Es mi opinión que ejecutar un algoritmo de aprendizaje en una base completa puede ocultar diferencias significativas en un nivel inferior de agregación.
Cualquiera que haya oído hablar de la paradoja de Simpson, es un caso difícil de un problema más profundo en el que tiene diferentes correlaciones en diferentes grupos que están cubiertos por un ruido de muestra más grande o correlaciones más débiles de un grupo más grande.
fuente
Su enfoque general propuesto, que utiliza particiones latentes para asignar diferentes puntos de datos a diferentes clasificadores de base, es un enfoque bien investigado hacia la clasificación.
La razón por la que estos métodos no se usan ampliamente es probable porque son relativamente complicados y tienen tiempos de ejecución más largos que la regresión logística o SVM. En muchos casos, parece que pueden conducir a un mejor rendimiento de clasificación.
Aquí hay algunas referencias:
Shahbaba, B. y Neal, R. "Modelos no lineales que utilizan mezclas de procesos de Dirichlet"
Zhu, J. y Chen, N. y Xing, EP "SVM Infinitamente Latente para Clasificación y Aprendizaje Multitarea"
Rasmussen, CE y Ghahramani, Z. "Mezclas infinitas de expertos en procesos gaussianos"
Meeds, E. y Osindero, S. "Una mezcla alternativa infinita de expertos en procesos gaussianos"
fuente
Quiero reconocer desde el principio que sé relativamente poco acerca de la agrupación. Sin embargo, no veo el punto del procedimiento que describe. Si piensa, por ejemplo, que el primer trimestre versus los estudiantes que regresan podrían ser diferentes, ¿por qué no incluir una covariable que indexe eso? Del mismo modo, si cree que otra característica de los estudiantes es relevante, también puede incluirla. Si le preocupa que la relación entre su predictor principal de interés y la tasa de éxito pueda diferir, también podría incluir la interacción entre ese predictor y el primer término versus el retorno, etc. La regresión logística está bien equipada para abordar estas preguntas mediante la inclusión de tales términos en el modelo.
Por otro lado, siempre y cuando solo se agrupe en estas características y lo haga primero (sin mirar la respuesta), no veo ningún problema. Sospecho que este enfoque sería ineficiente, ya que cada modelo tiene una potencia menor porque solo se ajusta a un subconjunto de datos, pero no creo que sesgue los parámetros o invalide las pruebas. Así que supongo que podrías probar esto si realmente quieres.
Actualizar:
Supongo que sería mejor (es decir, más eficiente) ajustar un modelo con todos los datos. Podría incluir algunas covariables adicionales (como regresar versus no) más allá de su interés principal, y un indicador de agrupación que descubrió al ejecutar previamente un análisis de conglomerados. Sin embargo, si las covariables que entraron en el análisis de conglomerados también están disponibles para el modelo de regresión logística, no estoy seguro de si puedo ver qué se ganaría si solo se incluyeran todas las covariables en el modelo LR sinEl indicador de grupo. Puede haber una ventaja con la que no estoy familiarizado, ya que no soy experto en análisis de conglomerados, pero no sé cuál sería. Me parece que la CA no generaría información adicional que no estaba allí en las covariables y, por lo tanto, no agregaría nada al modelo LR. Podrías intentarlo; puede ser que esté equivocado. Pero supongo que simplemente quemarías algunos grados adicionales de libertad.
Un enfoque diferente sería ingresar el indicador de clúster en el modelo LR en lugar de las covariables en las que se basa. Dudo que esto sea beneficioso. El CA no será perfecto, como tampoco lo es cualquier otro análisis, por lo que pasar de las covariables originales al indicador de clúster derivado puede implicar cierta pérdida de información . (Una vez más, no lo sé, pero sospecho que es verdad.) Una vez más, podrías intentarlo de ambas maneras y compararlo como un ejercicio académico, aunque solo intentas muchas cosas y te decides por el resultado que se ve mejor. si quieres tomar en serio tus resultados.
No quiero simplemente hacer carpas en los análisis de conglomerados. Puede haber muchos beneficios de ellos en general, y puede haber un buen uso para ellos aquí. Sin embargo, como entiendo su situación, creo que construir un modelo LR con las covariables que cree que podrían ser relevantes es el camino a seguir.
fuente
Si no está atado a la regresión logística, le sugiero que use un clasificador de bosque aleatorio porque tiene una especie de agrupación integrada. La idea sería usar la matriz de proximidad para agrupar. La matriz de proximidad es la matriz N_Obs por N_Obs para la fracción de árboles fuera de bolsa donde las observaciones se encuentran en el mismo nodo terminal. Luego puede agregar esto en un nivel de entidad por matriz de nivel de entidad donde los elementos son el promedio de la fracción en la matriz de proximidad. Luego agruparía todos los niveles cuando pasen un umbral y vea si esto mejora su predicción. Es probable que sea mejor adoptar un enfoque iterativo gradual para encontrar la agrupación óptima, pero puede elegir un umbral de otras maneras. Cuando se realiza esta agrupación, puede reemplazar la función con las etiquetas del clúster o agregar las etiquetas del clúster como una nueva función. Supongo que en este punto podría volver a la regresión logística si realmente quisiera.
fuente
Al crear modelos multisegmentados, creo que el mejor enfoque es crear segmentos que hablen de diferencias reales en las distribuciones subyacentes. Los estudiantes de primer trimestre frente a los estudiantes que regresan son un gran ejemplo, ya que las distribuciones de predictores probablemente serán muy diferentes para estas dos poblaciones. Más importante aún, estas diferencias tienen una explicación intuitiva.
fuente