Estoy tratando de clasificar los mensajes en diferentes categorías usando un SVM. He compilado una lista de palabras / símbolos deseables del conjunto de entrenamiento.
Para cada vector, que representa un mensaje, configuro la fila correspondiente a 1
si la palabra está presente:
"corpus" es: [Mary, little, lamb, star, twinkle]
primer mensaje: "María tenía un corderito" -> [1 1 1 0 0]
segundo mensaje: "pequeña estrella centelleante" -> [0 1 0 1 1]
Creo que esta es una configuración bastante común con SVM, pero mi pregunta es, con miles de palabras en el conjunto, ¿qué pasa si solo aparecen 1-2 palabras por mensaje? ¿La dependencia lineal de mi conjunto de vectores de entrenamiento afectará negativamente la capacidad de convergencia del algoritmo?
fuente
flexmix
embargo, ¡he tenido "Learn R" en mi calendario durante un par de años ahora!Respuestas:
La escasez y la dependencia lineal son dos cosas diferentes. La dependencia lineal implica que algunos de los vectores de características son simples múltiplos de otros vectores de características (o lo mismo se aplica a los ejemplos). En la configuración que ha descrito, creo que la dependencia lineal es poco probable (implica que dos términos tienen la misma frecuencia (o múltiplos de la misma) en todos los documentos). Simplemente tener características dispersas no presenta ningún problema para el SVM. Una forma de ver esto es que podría hacer una rotación aleatoria de los ejes de coordenadas, lo que dejaría el problema sin cambios y daría la misma solución, pero haría que los datos no fueran escasos (esto es en parte cómo funcionan las proyecciones aleatorias )
También parece que estás hablando del SVM en el primario . Tenga en cuenta que si utiliza el SVM del núcleo, el hecho de que tenga un conjunto de datos disperso no significa que la matriz del núcleo sea dispersa. Sin embargo, puede ser de bajo rango. En ese caso, puede aprovechar este hecho para obtener un entrenamiento más eficiente (ver, por ejemplo, entrenamiento svm eficiente usando representaciones de kernel de bajo rango ).
fuente