Comparación de SVM y regresión logística

37

¿Alguien puede darme alguna intuición sobre cuándo elegir SVM o LR? Quiero entender la intuición detrás de cuál es la diferencia entre los criterios de optimización para aprender el hiperplano de los dos, donde los objetivos respectivos son los siguientes:

  • SVM: intente maximizar el margen entre los vectores de soporte más cercanos
  • LR: Maximiza la probabilidad de clase posterior

Consideremos el espacio de características lineales para SVM y LR.

Algunas diferencias que ya conozco:

  1. SVM es determinista (pero podemos usar el modelo de Platts para el puntaje de probabilidad) mientras que LR es probabilístico.
  2. Para el espacio del kernel, SVM es más rápido (las tiendas solo admiten vectores)
usuario41799
fuente
2
Esta afirmación es incorrecta: " LR: Maximizar la probabilidad de clase posterior ". La regresión logística maximiza la probabilidad, no cierta densidad posterior. La regresión logística bayesiana es una historia diferente, pero debe ser específico al respecto si a eso se refiere.
Digio

Respuestas:

30

Los SVM lineales y la regresión logística generalmente tienen un rendimiento comparable en la práctica. Use SVM con un núcleo no lineal si tiene razones para creer que sus datos no serán separables linealmente (o si necesita ser más robusto para los valores atípicos de lo que LR normalmente tolerará). De lo contrario, primero intente la regresión logística y vea cómo le va con ese modelo más simple. Si la regresión logística falla, intente un SVM con un núcleo no lineal como un RBF.

EDITAR:

Ok, hablemos de dónde provienen las funciones objetivo.

La regresión logística proviene de la regresión lineal generalizada. Una buena discusión de la función objetivo de regresión logística en este contexto se puede encontrar aquí: https://stats.stackexchange.com/a/29326/8451

El algoritmo Support Vector Machines está mucho más motivado geométricamente . En lugar de suponer un modelo probabilístico, estamos tratando de encontrar un hiperplano de separación óptimo particular, donde definimos "óptima" en el contexto de los vectores de soporte. No tenemos nada parecido al modelo estadístico que usamos en la regresión logística aquí, a pesar de que el caso lineal nos dará resultados similares: en realidad esto solo significa que la regresión logística hace un trabajo bastante bueno al producir clasificadores de "amplio margen", ya que eso es todo lo que SVM está tratando de hacer (específicamente, SVM está tratando de "maximizar" el margen entre las clases).

Trataré de volver a esto más tarde y profundizar un poco más en las malezas, solo estoy en medio de algo: p

David Marx
fuente
1
Pero eso todavía no responde a mi pregunta sobre cuál es la diferencia intuitiva en las funciones objetivas de SVM v / s LR, que son las siguientes: (a) SVM: Intente maximizar el margen entre los vectores de soporte más cercanos (b) LR: Maximice la probabilidad de clase posterior
user41799
Quiero decir, esa es una pregunta completamente diferente. ¿Está preguntando cuándo usar los modelos o qué motiva la forma de sus funciones objetivas?
David Marx
1
Estoy más interesado en lo que motiva la forma de sus funciones objetivas
user41799
44
Trataré de volver a esto más tarde y profundizar un poco más en las malezas, estoy en medio de algo Cuatro años después ...
user1717828
23

Logistic Regression Vs SVM

Imagen significa la diferencia entre SVM y Regresión logística y dónde usar qué método

this picture comes from the coursera course : "machine learning" by Andrew NG. It can be found in week 7 at the end of: "Support vector machines - using an SVM"

JSONParser
fuente
By "features", do you mean the number of unique attributes or the total number of unique values belonging to those attributes?
Ahmedov
eg : in price price prediction of rubber, one feature is petrol price one is weather etc .....
JSONParser
Actually, the image does not say anything about their differences...
Jan Kukacka
difference may be wrong word comparison can be better
JSONParser
1
  • LR gives calibrated probabilities that can be interpreted as confidence in a decision.
  • LR nos da un objetivo suave y sin restricciones.
  • LR puede usarse (directamente) dentro de los modelos bayesianos.
  • Los SVM no penalizan los ejemplos para los cuales se toma la decisión correcta con suficiente confianza. Esto puede ser bueno para la generalización.
  • Los SVM tienen una buena forma dual, dando soluciones dispersas cuando se usa el truco del núcleo (mejor escalabilidad)

Echa un vistazo a Support Vector Machines vs Logistic Regression, University of Toronto CSC2515 por Kevin Swersky.

Chankey Pathak
fuente