Algunas técnicas de modelado predictivo están más diseñadas para manejar predictores continuos, mientras que otras son mejores para manejar variables categóricas o discretas. Por supuesto, existen técnicas para transformar un tipo en otro (discretización, variables ficticias, etc.). Sin embargo, ¿existen técnicas de modelado predictivo diseñadas para manejar ambos tipos de entrada al mismo tiempo sin simplemente transformar el tipo de las características? Si es así, ¿estas técnicas de modelado tienden a funcionar mejor en los datos para los que son más naturales?
Lo más parecido que sé es que, por lo general, los árboles de decisión manejan bien los datos discretos y manejan los datos continuos sin requerir una discretización inicial . Sin embargo, esto no es exactamente lo que estaba buscando, ya que efectivamente las divisiones en las funciones continuas son solo una forma de discretización dinámica.
Como referencia, aquí hay algunas preguntas relacionadas, no duplicadas:
fuente
Respuestas:
Hasta donde sé, y he investigado este problema profundamente en el pasado, no hay técnicas de modelado predictivo (además de árboles, XgBoost, etc.) que estén diseñadas para manejar ambos tipos de entrada al mismo tiempo sin simplemente transformar el tipo de las características.
Tenga en cuenta que los algoritmos como Random Forest y XGBoost aceptan una entrada de características mixtas, pero aplican cierta lógica para manejarlos durante la división de un nodo. Asegúrese de comprender la lógica "bajo el capó" y de que está de acuerdo con lo que esté sucediendo en el recuadro negro.
Algunas funciones de distancia conocidas para características categóricas:
Distancia de Levenshtien (o cualquier forma de "distancia de edición")
Métrica subsecuencia común más larga
fuente
Sé que ha pasado un tiempo desde que se publicó esta pregunta, pero si todavía está mirando este problema (o similares), puede considerar el uso de modelos aditivos generalizados (GAM). No soy un experto, pero estos modelos le permiten combinar diferentes modelos para crear una sola predicción. El proceso utilizado para encontrar coeficientes para los modelos que pones resuelve todos ellos a la vez, por lo que puedes enviar un modelo aditivo generalizado a tu modelo favorito para predictores categóricos y tu modelo favorito para predictores continuos y obtener un modelo único que minimiza RSS o cualquier otro criterio de error que desee usar.
Fuera de mi cabeza, el único paquete de software que sé que tiene una implementación de GAM es el lenguaje R, pero estoy seguro de que hay otros.
fuente
Si bien la discretización transforma los datos continuos en datos discretos, difícilmente se puede decir que las variables ficticias transforman los datos categóricos en datos continuos. De hecho, dado que los algoritmos pueden ejecutarse en computadoras, difícilmente puede haber un algoritmo clasificador que NO transforme los datos categóricos en variables ficticias.
En el mismo sentido, un clasificador en última instancia transforma sus predictores en una variable discreta que indica la pertenencia a una clase (incluso si genera una probabilidad de clase, finalmente elige un límite). De hecho, muchos clasificadores como la regresión logística, el bosque aleatorio, los árboles de decisión y la SVM funcionan bien con ambos tipos de datos.
Sospecho que sería difícil encontrar un algoritmo que funcione con datos continuos pero que no pueda manejar datos categóricos en absoluto. Por lo general, tiendo a encontrar que hace más diferencia sobre qué tipo de datos tiene en el lado izquierdo de su modelo.
fuente
Esta es una pregunta filosófica profunda que comúnmente se aborda desde el punto de vista estadístico y de aprendizaje automático. Algunos dicen que la categorización es mejor para un indicador discreto a categórico, de modo que los paquetes puedan digerir fácilmente las entradas del modelo. Otros dicen que el binning puede causar pérdida de información, pero, sin embargo, las variables categóricas pueden / deben convertirse a {1,0} variables indicadoras que omiten la última clase para los residuos del modelo.
El libro - Regresión lineal aplicada (Kutner et al.) Menciona acerca de la lógica de introducir variables indicadoras en el modelo en los primeros capítulos. Puede haber otro texto similar también.
Mi opinión sobre esto puede ser un poco exagerada: si imaginamos las variables categóricas como los bloques en un diseño experimental, la variable indicadora es una extensión natural del análisis de datos no basado en experimentos. Con respecto a los algoritmos de minería de datos (familias de árboles de decisión), la categorización es inevitable (ya sea de forma manual o automatizada) que se debe alimentar al modelo.
Por lo tanto, puede que no haya un modelo especializado para variables numéricas y categóricas de la misma manera (sin binning-numerical o usando indicadores-categóricos).
fuente