¿Cuál es el modelo estadístico detrás del algoritmo SVM?
28
Aprendí que, cuando se trata de datos utilizando un enfoque basado en modelos, el primer paso es modelar el procedimiento de datos como un modelo estadístico. Luego, el siguiente paso es desarrollar un algoritmo de inferencia / aprendizaje eficiente / rápido basado en este modelo estadístico. ¿Entonces quiero preguntar qué modelo estadístico está detrás del algoritmo de máquina de vectores de soporte (SVM)?
A menudo puede escribir un modelo que corresponda a una función de pérdida (aquí voy a hablar sobre la regresión SVM en lugar de la clasificación SVM; es particularmente simple)
Por ejemplo, en un modelo lineal, si su función de pérdida es entonces minimizar eso corresponderá a la probabilidad máxima de f ∝ exp ( - a∑yosol( εyo) = ∑yosol( yyo- x′yoβ)= exp ( - aF∝ exp( - asol( ε ) ) . (Aquí tengo un núcleo lineal)= exp( - asol( y- x′β) )
Si recuerdo correctamente, la regresión SVM tiene una función de pérdida como esta:
Eso corresponde a una densidad que es uniforme en el medio con colas exponenciales (como vemos exponiendo su negativo, o algún múltiplo de su negativo).
Hay una familia de 3 parámetros: ubicación de esquina (umbral de insensibilidad relativa) más ubicación y escala.
Es una densidad interesante; Si recuerdo correctamente al mirar esa distribución en particular hace unas décadas, un buen estimador de ubicación es el promedio de dos cuantiles colocados simétricamente que corresponden a donde están las esquinas (por ejemplo, la bisagra media daría una buena aproximación a MLE para un particular elección de la constante en la pérdida SVM); un estimador similar para el parámetro de escala se basaría en su diferencia, mientras que el tercer parámetro corresponde básicamente a determinar en qué percentil se encuentran las esquinas (esto podría elegirse en lugar de estimarse, ya que a menudo es para SVM).
Entonces, al menos para la regresión SVM, parece bastante sencillo, al menos si elegimos obtener nuestros estimadores por máxima probabilidad.
(En caso de que esté a punto de preguntar ... No tengo ninguna referencia para esta conexión en particular con SVM: ya lo resolví ahora. Sin embargo, es tan simple que docenas de personas lo habrán resuelto antes que yo, así que sin duda no son referencias para ella - he visto nunca ninguna).
(Respondí esto anteriormente en otro lugar, pero lo eliminé y lo moví aquí cuando vi que también preguntaba aquí; la capacidad de escribir matemáticas e incluir imágenes es mucho mejor aquí, y la función de búsqueda también es mejor, por lo que es más fácil de encontrar en unos meses)
Glen_b -Reinstate Monica
2
ℓ2
2
Si el OP pregunta por SVM, probablemente esté interesado en la clasificación (que es la aplicación más común de SVM). En ese caso, la pérdida es una pérdida de bisagra que es un poco diferente (no tiene la parte creciente). Con respecto al modelo, escuché a académicos decir en la conferencia que los SVM fueron introducidos para realizar la clasificación sin tener que usar un marco probabilístico. Probablemente por eso no puedes encontrar referencias. Por otro lado, puede y minimiza la minimización de la pérdida de la bisagra como minimización empírica del riesgo, lo que significa ...
DeltaIV
44
El hecho de que no tenga que tener un marco probabilístico ... no significa que lo que está haciendo no corresponde a uno. Uno puede hacer mínimos cuadrados sin asumir la normalidad, pero es útil entender que eso es lo que está haciendo bien ... y cuando no estás cerca de eso, es posible que lo esté haciendo mucho menos bien.
Creo que alguien ya respondió su pregunta literal, pero permítame aclarar una posible confusión.
Su pregunta es algo similar a la siguiente:
f(x)=…
En otras palabras, ciertamente tiene una respuesta válida (tal vez incluso una única si impone restricciones de regularidad), pero es una pregunta bastante extraña, ya que no fue una ecuación diferencial que originó esa función en primer lugar.
(Por otro lado, dada la ecuación diferencial, es natural pedir su solución, ¡ya que por eso usualmente se escribe la ecuación!)
He aquí por qué: creo que está pensando en modelos probabilísticos / estadísticos, específicamente, modelos generativos y discriminativos , basados en la estimación de probabilidades conjuntas y condicionales a partir de datos.
El SVM no es ninguno. Es un tipo de modelo completamente diferente, uno que los ignora e intenta modelar directamente el límite de decisión final, las probabilidades sean condenadas.
Como se trata de encontrar la forma del límite de decisión, la intuición detrás de esto es geométrica (o quizás deberíamos decir basada en la optimización) en lugar de probabilística o estadística.
Dado que las probabilidades no se consideran realmente en ninguna parte del camino, es bastante inusual preguntar cuál podría ser el modelo probabilístico correspondiente, y especialmente porque el objetivo era evitar tener que preocuparse por las probabilidades. Por eso no ves gente hablando de ellos.
Creo que está descontando el valor de los modelos estadísticos subyacentes a su procedimiento. La razón por la que es útil es que le dice qué suposiciones hay detrás de un método. Si sabe esto, puede comprender qué situaciones tendrá dificultades y cuándo prosperará. También puede generalizar y extender svm de una manera basada en principios si tiene el modelo subyacente.
probabilidadislogic
3
@probabilityislogic: "Creo que está descontando el valor de los modelos estadísticos subyacentes a su procedimiento". ... Creo que estamos hablando uno al lado del otro. Lo que estoy tratando de decir es que no hay un modelo estadístico detrás del procedimiento. Estoy no diciendo que no es posible llegar a una que se ajuste a posteriori, pero estoy tratando de explicar que no era "detrás" de ninguna manera, sino más bien "ajuste" a ella después de los hechos . También estoy no diciendo que hacer tal cosa no sirve para nada; Estoy de acuerdo con usted en que podría terminar con un gran valor. Por favor, tenga en cuenta estas distinciones.
Mehrdad
1
@Mehrdad: No digo que no sea posible encontrar uno que se ajuste a posteriori, el orden en que se ensamblaron las piezas de lo que llamamos la 'máquina' de svm (qué problema intentaron originalmente los humanos que la diseñaron) resolver) es interesante desde el punto de vista de la historia de la ciencia. Pero por lo que sabemos, podría haber un manuscrito aún desconocido en alguna biblioteca que contiene una descripción del motor svm de hace 200 años que ataca el problema desde el ángulo explorado por Glen_b. Quizás las nociones de a posteriori y después del hecho son menos confiables en la ciencia.
usuario603
1
@ user603: No es solo el historial el problema aquí. El aspecto histórico es solo la mitad. La otra mitad es cómo normalmente se deriva en realidad. Comienza como un problema de geometría y termina con un problema de optimización. Nadie comienza con el modelo probabilístico en la derivación, lo que significa que el modelo probabilístico no estaba en ningún sentido "detrás" del resultado. Es como afirmar que la mecánica lagrangiana está "detrás" de F = ma. Tal vez pueda conducir a eso, y sí, es útil, pero no, no es y nunca fue la base de ello. De hecho, todo el objetivo era evitar la probabilidad.
Creo que alguien ya respondió su pregunta literal, pero permítame aclarar una posible confusión.
Su pregunta es algo similar a la siguiente:
En otras palabras, ciertamente tiene una respuesta válida (tal vez incluso una única si impone restricciones de regularidad), pero es una pregunta bastante extraña, ya que no fue una ecuación diferencial que originó esa función en primer lugar.
(Por otro lado, dada la ecuación diferencial, es natural pedir su solución, ¡ya que por eso usualmente se escribe la ecuación!)
He aquí por qué: creo que está pensando en modelos probabilísticos / estadísticos, específicamente, modelos generativos y discriminativos , basados en la estimación de probabilidades conjuntas y condicionales a partir de datos.
El SVM no es ninguno. Es un tipo de modelo completamente diferente, uno que los ignora e intenta modelar directamente el límite de decisión final, las probabilidades sean condenadas.
Como se trata de encontrar la forma del límite de decisión, la intuición detrás de esto es geométrica (o quizás deberíamos decir basada en la optimización) en lugar de probabilística o estadística.
Dado que las probabilidades no se consideran realmente en ninguna parte del camino, es bastante inusual preguntar cuál podría ser el modelo probabilístico correspondiente, y especialmente porque el objetivo era evitar tener que preocuparse por las probabilidades. Por eso no ves gente hablando de ellos.
fuente