Me pregunto si hay algún algoritmo que pueda hacer clasificación y regresión al mismo tiempo. Por ejemplo, me gustaría dejar que el algoritmo aprenda un clasificador, y al mismo tiempo dentro de cada etiqueta, también aprende un objetivo continuo. Por lo tanto, para cada ejemplo de entrenamiento, tiene una etiqueta categórica y un valor continuo.
Primero podría entrenar a un clasificador, y luego entrenar a un regresor dentro de cada etiqueta, pero solo estoy pensando que si hay un algoritmo que pueda hacer ambas cosas, sería maravilloso.
Respuestas:
El problema que está describiendo puede resolverse mediante la regresión de clase latente , o la regresión por conglomerados , o su mezcla de extensión de modelos lineales generalizados que son todos miembros de una familia más amplia de modelos de mezcla finita o modelos de clase latente .
No es una combinación de clasificación (aprendizaje supervisado) y regresión per se , sino más bien de agrupación (aprendizaje no supervisado) y regresión. El enfoque básico puede ampliarse para que pueda predecir la membresía de la clase utilizando variables concomitantes, lo que lo hace aún más cercano a lo que está buscando. De hecho, Vermunt y Magidson (2003) describieron el uso de modelos de clase latentes para la clasificación, quienes lo recomiendan para tal propósito.
Regresión de clase latente
Este enfoque es básicamente un modelo de mezcla finita (o análisis de clase latente ) en forma
donde es un vector de todos los parámetros y son componentes de la mezcla parametrizados por , y cada componente aparece con proporciones latentes . Entonces, la idea es que la distribución de sus datos es una mezcla de componentes , cada uno de los cuales puede describirse mediante un modelo de regresión aparece con probabilidad . Los modelos de mezclas finitas son muy flexibles en la elección de componentes y pueden extenderse a otras formas y mezclas de diferentes clases de modelos (por ejemplo, mezclas de analizadores de factores).f k ϑ k π k K f k π k f kψ = ( π , ϑ ) Fk ϑk πk K fk πk fk
Predicción de la probabilidad de pertenencia a clases basada en variables concomitantes
El modelo de regresión de clase latente simple puede extenderse para incluir variables concomitantes que predicen la membresía de la clase (Dayton y Macready, 1998; ver también: Linzer y Lewis, 2011; Grun y Leisch, 2008; McCutcheon, 1987; Hagenaars y McCutcheon, 2009) , en tal caso el modelo se convierte
donde nuevamente es un vector de todos los parámetros, pero también incluimos variables concomitantes y una función (por ejemplo, logística) que se usa para predecir las proporciones latentes basadas en las variables concomitantes. Por lo tanto, primero puede predecir la probabilidad de membresía en la clase y estimar la regresión por conglomerados dentro de un solo modelo.w π k ( w , α )ψ w πk(w,α)
Pros y contras
Lo bueno de esto es que es una técnica de agrupación basada en modelos , lo que significa que ajusta los modelos a sus datos, y dichos modelos se pueden comparar utilizando diferentes métodos para la comparación de modelos (pruebas de razón de probabilidad, BIC, AIC, etc. ), por lo que la elección del modelo final no es tan subjetiva como con el análisis de conglomerados en general. Frenar el problema en dos problemas independientes de agrupamiento y luego aplicar la regresión puede conducir a resultados sesgados y estimar todo dentro de un solo modelo le permite usar sus datos de manera más eficiente.
La desventaja es que necesita hacer una serie de suposiciones sobre su modelo y pensarlo un poco, por lo que no es un método de recuadro negro que simplemente tomará los datos y devolverá algún resultado sin molestarlo. Con datos ruidosos y modelos complicados, también puede tener problemas de identificación del modelo. Además, dado que tales modelos no son tan populares, no se implementan ampliamente (puede verificar los excelentes paquetes R
flexmix
ypoLCA
, hasta donde sé, también se implementa en SAS y Mplus en cierta medida), lo que lo hace dependiente del software.Ejemplo
A continuación puede ver un ejemplo de dicho modelo de la
flexmix
biblioteca (Leisch, 2004; Grun y Leisch, 2008) mezcla de viñeta de dos modelos de regresión a datos inventados.Se visualiza en las siguientes parcelas (las formas de los puntos son las clases verdaderas, los colores son las clasificaciones).
Referencias y recursos adicionales.
Para más detalles, puede consultar los siguientes libros y documentos:
fuente