¿Cuáles son las limitaciones de los métodos del kernel y cuándo usar los métodos del kernel?

Los métodos del kernel pueden usarse para problemas supervisados y no supervisados. Ejemplos bien conocidos son la máquina de vectores de soporte y la agrupación espectral del núcleo , respectivamente.

Los métodos de kernel proporcionan una forma estructurada de usar un algoritmo lineal en un espacio de características transformado, para el cual la transformación es típicamente no lineal (y a un espacio dimensional superior). La ventaja clave que trae este llamado truco del núcleo es que los patrones no lineales se pueden encontrar a un costo computacional razonable .

$\mathbf{K} \in \mathbb{R}^{N\times N}$ $N$ $O(N^2)$ $O(N^3)$ $N$

Esto hace que los métodos del núcleo sean muy interesantes desde una perspectiva computacional cuando el número de dimensiones es grande y el número de muestras es relativamente bajo (digamos, menos de 1 millón).

Relacionado: ¿ Kernel lineal y kernel no lineal para máquina de vectores de soporte?

SVM para problemas a gran escala

Para problemas dimensionales muy altos, como las 10000dimensiones que menciona en la pregunta, a menudo no es necesario asignar un espacio de características dimensionales más altas. El espacio de entrada ya es lo suficientemente bueno. Para tales problemas, los métodos lineales son órdenes de magnitud más rápidos con casi el mismo rendimiento predictivo. Se pueden encontrar ejemplos de estos métodos en LIBLINEAR o Vowpal Wabbit .

$500$ $N$ $5.000.000$ $10.000$

$N$ $p$

Marc Claesen
fuente

Muchas gracias por sus respuestas detalladas, señor. Descubrí que en las circunstancias de altas dimensiones, si uso el RBFkernel libsvm, siempre se sobreajusta, el clasificador logra una alta precisión pero baja precisión en el conjunto de pruebas. Y si hago la reducción de dimensiones antes del clasificador, y las dimensiones reducidas están cerca del número de muestras de entrenamiento, el clasificador puede lograr un buen beneficio entre el entrenamiento y el conjunto de pruebas. ¿Los resultados se ajustan a la mayoría de los resultados empíricos? Gracias.

minería

Los métodos del núcleo son bastante robustos frente a la alta dimensionalidad de entrada. Por lo general, no necesita realizar una reducción de dimensionalidad antes de usarlos. Es muy importante ajustar todos los parámetros, particularmente gammapara el kernel RBF. El valor óptimo para gammaestá relacionado con el número de dimensiones de entrada. El enfoque de ajuste más común es la validación cruzada. Si utilizó el mismo valor gammacon y sin reducción de dimensionalidad, probablemente esté cometiendo un error.

Marc Claesen

Sí señor. Usualmente uso el paquete grid.pyin libsvmpara hacer validación cruzada. Y en la mayoría de las circunstancias, para datos de altas dimensiones, el gammasiempre muy pequeño, como 0.00001este nivel.

minería

Hola, señor, he revisado su proyecto de código abierto EnsembleSVM, ¿necesita hacer que el procedimiento de validación cruzada sea multiproceso? Y creo que en la etapa de predicción, ¿será bueno predecir los enormes datos en lotes y máquinas de subprocesos múltiples o múltiples?

minería

El uso de subprocesos múltiples es opcional en EnsembleSVM, pero está habilitado de forma predeterminada en esvm-trainy esvm-predict. Para desactivar multihilo, utilice el siguiente indicador en esas herramientas: -threads 1.

Marc Claesen

¿Cuáles son las limitaciones de los métodos del kernel y cuándo usar los métodos del kernel?

Respuestas:

SVM para problemas a gran escala