Tengo un conjunto de datos como
+--------+------+-------------------+
| income | year | use |
+--------+------+-------------------+
| 46328 | 1989 | COMMERCIAL EXEMPT |
| 75469 | 1998 | CONDOMINIUM |
| 49250 | 1950 | SINGLE FAMILY |
| 82354 | 2001 | SINGLE FAMILY |
| 88281 | 1985 | SHOP & HOUSE |
+--------+------+-------------------+
Lo incrusto en un espacio vectorial de formato LIBSVM
+1 1:46328 2:1989 3:1
-1 1:75469 2:1998 4:1
+1 1:49250 2:1950 5:1
-1 1:82354 2:2001 5:1
+1 1:88281 2:1985 6:1
Índices de características:
- 1 es "ingreso"
- 2 es "año"
- 3 es "uso / EXENTOS COMERCIALES"
- 4 es "uso / CONDOMINIO"
- 5 es "uso / UNA SOLA FAMILIA"
- 6 es "uso / TIENDA Y CASA"
¿Está bien entrenar una máquina de vectores de soporte (SVM) con una combinación de datos continuos (año, ingresos) y categóricos (uso) como este?
categorical-data
svm
mixed-type-data
Seamus Abshere
fuente
fuente
Respuestas:
¡Si! Pero tal vez no de la manera que quieres decir. En mi investigación, con frecuencia creo características categóricas a partir de valores continuamente valorados utilizando un algoritmo como la partición recursiva . Usualmente uso este enfoque con la implementación SVMLight de máquinas de vectores de soporte, pero también lo he usado con LibSVM. Deberá asegurarse de asignar sus características categóricas particionadas a un lugar específico en su vector de características durante el entrenamiento y la clasificación, de lo contrario, su modelo terminará confundido.
Editar: es decir, cuando he hecho esto, asigno los primeros n elementos del vector a los valores binarios asociados con la salida de la partición recursiva. En el modelado de características binarias, solo tiene un vector gigante de 0 y 1, por lo que todo se ve igual para el modelo, a menos que indique explícitamente dónde están las diferentes características. Esto probablemente sea demasiado específico, ya que imagino que la mayoría de las implementaciones de SVM lo harán por sí solas, pero, si te gusta programar las tuyas, ¡podría ser algo en lo que pensar!
fuente