Intuición para máquinas de vectores de soporte y el hiperplano

14

En mi proyecto quiero crear un modelo de regresión logística para predecir la clasificación binaria (1 o 0).

Tengo 15 variables, 2 de las cuales son categóricas, mientras que el resto son una mezcla de variables continuas y discretas.

Para ajustar un modelo de regresión logística, se me ha aconsejado que verifique la separabilidad lineal utilizando SVM, perceptrón o programación lineal. Esto se relaciona con las sugerencias hechas aquí. respecto a la prueba de separabilidad lineal.

Como novato en el aprendizaje automático, entiendo los conceptos básicos sobre los algoritmos mencionados anteriormente, pero conceptualmente me cuesta visualizar cómo podemos separar los datos que tienen tantas dimensiones, es decir, 15 en mi caso.

Todos los ejemplos en el material en línea generalmente muestran una gráfica en 2D de dos variables numéricas (altura, peso) que muestran una brecha clara entre las categorías y hace que sea más fácil de entender, pero en el mundo real los datos suelen tener una dimensión mucho más alta. Sigo atrayéndome al conjunto de datos de Iris e intentando ajustar un hiperplano a través de las tres especies y cómo es particularmente difícil, si no imposible, hacerlo entre dos de las especies, las dos clases se me escapan en este momento.

¿Cómo se logra esto cuando tenemos órdenes de dimensiones aún más altas , se supone que cuando excedemos un cierto número de características usamos núcleos para mapear a un espacio dimensional más alto para lograr esta separabilidad?

También para probar la separabilidad lineal, ¿cuál es la métrica que se utiliza? ¿Es la precisión del modelo SVM, es decir, la precisión basada en la matriz de confusión?

Cualquier ayuda para comprender mejor este tema sería muy apreciada. También a continuación hay una muestra de un gráfico de dos variables en mi conjunto de datos que muestra la superposición de estas dos variables.

ingrese la descripción de la imagen aquí

La cabra
fuente
1
Parece que tienes varias preguntas distintas en tu publicación. póngalos todos juntos en una lista o elimine las preguntas no esenciales. esto atrae a más personas a responder y mejores respuestas
Aksakal
2
En general, la intuición necesita mucha ayuda de la imaginación cuando se pasa de 2D a una situación de alta dimensión, a menudo, la intuición se rompe por completo. Hay muchas versiones de problemas de baja dimensión que parecen pertenecer a un mundo completamente diferente donde las cosas funcionan de manera diferente, piense en el teorema de Fermat
Aksakal

Respuestas:

14

Voy a tratar de ayudarlo a comprender por qué agregar dimensiones ayuda a un clasificador lineal a hacer un mejor trabajo al separar dos clases.

X1X2norte=3

n = 3

Ahora imagine asignar algunos de los puntos a la clase 1 y otros a la clase 2. Tenga en cuenta que no importa cómo asignemos clases a los puntos, siempre podemos dibujar una línea que separe perfectamente las dos clases.

Pero ahora digamos que agregamos un nuevo punto:

n = 4

pag=2 variables podemos usar un clasificador lineal para clasificar perfectamente tres puntos (no colineales) pero, en general, no podemos clasificar perfectamente 4 puntos no colineales.

X3

p = 3, n = 4

pag=3norte=4 4 que de nuevo puede clasificar perfectamente cualquier asignación de etiquetas de clase a estos puntos.

pagpag+1 puntos.

nortepag , aumentamos el número de patrones que podemos separar, hasta llegar al punto donde podemos clasificar perfectamente cualquier asignación de etiquetas. Con el kernel SVM, encajamos implícitamente un clasificador lineal en un espacio de alta dimensión, por eso es muy raro que tengamos que preocuparnos por la existencia de una separación.

FnorteFnorteFFpagFnorte=pag+1Fpagvariables, entonces puede romper cualquier número de puntos. Esta noción de rotura, que nos informa sobre la complejidad de un conjunto de clasificadores posibles, proviene de la teoría del aprendizaje estadístico y puede usarse para hacer declaraciones sobre la cantidad de sobreajuste que puede hacer un conjunto de clasificadores. Si le interesa, le recomiendo Luxburg y Schölkopf "Teoría estadística del aprendizaje: modelos, conceptos y resultados" (2008).

jld
fuente
Muchas gracias por su respuesta detallada, realmente me ayudó a comprender mejor la idea de las características multidimensionales y cómo separarlas intuitivamente.
TheGoat
7

Es fácil cometer un error cuando toma su intuición sobre los espacios de baja dimensión y la aplica a espacios de alta dimensión. Su intuición es exactamente al revés en este caso. Resulta mucho más fácil encontrar un hiperplano de separación en el espacio dimensional superior que en el espacio inferior.

Aunque cuando se observan dos pares de variables, las distribuciones roja y azul se superponen, al observar las 15 variables a la vez es muy posible que no se superpongan en absoluto.

Aaron
fuente
2

Tiene 15 variables, pero no todas son igualmente significativas para la discriminación de su variable dependiente (algunas de ellas podrían ser casi irrelevantes).

El análisis de componentes principales (PCA) vuelve a calcular una base lineal de esas 15 variables y las ordena de tal manera que los primeros componentes generalmente explican la mayor parte de la varianza. Entonces esto le permite reducir un problema de 15 dimensiones a (digamos) un problema de 2,3,4 o 5 dimensiones. Por lo tanto, hace que la trama sea más intuitiva; normalmente puede usar dos o tres ejes para variables numéricas (u ordinales de alta cardinalidad), luego use el color, la forma y el tamaño del marcador para tres dimensiones adicionales (tal vez más si puede combinar ordinales de baja cardinalidad). Entonces, trazar con las 6 PC más importantes debería darle una visualización más clara de su superficie de decisión.

smci
fuente