Esta pregunta podría ir aquí o en SO tal vez ...
Suponga que su conjunto de datos de entrenamiento contiene datos categóricos y continuos, como esta configuración:
Animal, breed, sex, age, weight, blood_pressure, annual_cost
cat, calico, M, 10, 15 , 100 , 100
cat, tabby, F, 5, 10 , 80 , 200
dog, beagle, M, 3, 30 , 90 , 200
dog, lab, F, 8, 75 , 80 , 100
Y la variable dependiente a predecir es el costo anual del veterinario. Estoy un poco confundido en cuanto a las técnicas específicas disponibles para lidiar con ese conjunto de datos. ¿Cuáles son los métodos comúnmente utilizados para manejar conjuntos de datos que son una mezcla de datos continuos y categóricos?
fuente
Debe echar un vistazo al preprocesamiento de datos . Es anterior a cualquier técnica de aprendizaje automático. Aquí hay una buena introducción (que se encuentra en Google).
En cuanto a las técnicas, hay muchos enfoques diferentes . Probablemente pueda usar la mayoría de ellos después de preprocesar sus datos. Debes probarlos y elegir el que mejor se adapte a tus necesidades.
fuente