Recientemente tuve una discusión rápida con un amigo experto que mencionó que las SVM son el límite de temperatura cero de la regresión logística. La justificación involucraba politopos marginales y dualidad fenchel. No pude seguir.
¿Es cierta esta afirmación sobre que las SVM son el límite de temperatura cero de la regresión logística? Y si es así, ¿alguien puede describir el argumento?
Respuestas:
En el caso de SVM de margen rígido y datos separables linealmente, esto es cierto.
Un bosquejo intuitivo: la pérdida para cada punto de datos en la regresión logística se extingue casi como una curva de disminución exponencial a medida que se aleja del límite de decisión (en la dirección correcta, por supuesto). Esta disminución exponencial significa que los puntos más cercanos al límite incurren en mucha más pérdida. A medida que la temperatura cae a 0, los puntos más cercanos al límite dominan por completo la pérdida, y la pérdida se determina exactamente por qué tan cerca están los puntos más cercanos.
La regresión logística binaria tiene la pérdida de entropía cruzada: donde es la etiqueta y es la probabilidad predicha en .−ylogp−(1−y)log(1−p) y p (0,1)
Típicamente, donde es la función sigmoide. Basado en el parámetro de temperatura introducido en este artículo , sospecho que la temperatura se refiere a una modificación de la formulación: , donde es la temperatura y yo ' He eliminado el término sesgo para simplificar.p=σ(wTx+b) σ p=σ(wTxτ) τ
Considerando solo el primer término de la pérdida, . Suponga que , porque cualquier otra cosa significaría que está en el lado equivocado del límite de decisión e incurrirá en una pérdida infinita como . Dado que el término exponencial se vuelve muy pequeño en el límite, usamos la expansión taylor de primer orden para para escribir−ylogp=ylog(1+exp(−wTxτ)) wTx>0 x τ→0 log(1+z) −ylogp≈yexp(−wTxτ)
Hasta ahora, hemos estado utilizando solo la pérdida para un único punto de datos, pero la pérdida real es . Considere solo etiquetas positivas ( ). Entonces esta suma está dominada por el término donde es el más pequeño (más cercano al límite de decisión).∑iyiexp(−wTxiτ) yi=1 wTxi
Esto se puede ver porque la relación entre el término y el término es que va al infinito o 0 como , por lo que solo importa el término más grande .i j exp(−wTxi/τ)exp(−wTxj/τ)=exp(wTxj−wTxiτ) τ→0 wTxi
Se puede usar un argumento simétrico en el segundo término de la pérdida.
Por lo tanto, la pérdida del problema de regresión logística a medida que la temperatura llega a 0 se minimiza maximizando la distancia mínima al límite de decisión.
fuente