Así que he estado jugando con SVM y me pregunto si esto es algo bueno:
Tengo un conjunto de características continuas (0 a 1) y un conjunto de características categóricas que convertí en variables ficticias. En este caso particular, codifico la fecha de la medición en una variable ficticia:
Hay 3 períodos de los que tengo datos y reservé 3 números de función para ellos:
20: 21: 22:
Entonces, dependiendo de qué período provengan los datos, se asignarán 1 características diferentes; los otros obtendrán 0.
¿Funcionará correctamente la SVM con esto o es algo malo?
Yo uso SVMLight y un núcleo lineal.
categorical-data
svm
feature-selection
linear-model
feature-construction
usuario3010273
fuente
fuente
Respuestas:
Los SVM manejarán tanto las variables binarias como las continuas siempre que realice algún preprocesamiento: todas las características deben escalarse o normalizarse. Después de ese paso, desde la perspectiva de los algoritmos, no importa si las características son continuas o binarias: para los binarios, ve muestras que están "lejos" o muy similares; para continuo también están los valores intermedios. El núcleo no importa con respecto al tipo de variables.
fuente
Replicando mi respuesta de http://www.quora.com/Machine-Learning/What-are-good-ways-to-handle-discrete-and-continuous-inputs-together/answer/Arun-Iyer-1
fuente