He visto dos tipos de formulaciones de pérdida logística. Podemos mostrar fácilmente que son idénticos, la única diferencia es la definición de la etiqueta .
Formulación / notación 1, :
donde , donde la función logística asigna un número realal intervalo 0,1.
Formulación / notación 2, :
Elegir una notación es como elegir un idioma, hay ventajas y desventajas para usar una u otra. ¿Cuáles son los pros y los contras de estas dos notaciones?
Mis intentos de responder a esta pregunta es que parece que a la comunidad de estadística le gusta la primera notación y a la comunidad de informática le gusta la segunda notación.
- La primera notación se puede explicar con el término "probabilidad", ya que la función logística transforma un número real en un intervalo de 0,1.
- Y la segunda notación es más concisa y es más fácil de comparar con pérdida de bisagra o pérdida de 0-1.
Estoy en lo cierto? ¿Alguna otra idea?
Respuestas:
La versión corta
La versión larga
Lo bueno del modelado matemático es que es flexible. Estas son funciones de pérdida equivalentes, pero derivan de modelos subyacentes muy diferentes de los datos.
Fórmula 1
La primera notación deriva de un modelo de probabilidad de Bernoulli para , que se define convencionalmente en { 0 , 1 } . En este modelo, el resultado / etiqueta / clase / predicción está representado por una variable aleatoria Y que sigue una distribución B e r n o u l l i ( p ) . Por lo tanto, su probabilidad es: P ( Y = y | p ) = L ( p ; y ) = p yy {0,1} Y Bernoulli(p)
parap∈[0,1] . Usar 0 y 1 como los valores del indicador nos permite reducir la función por partes en el extremo derecho a una expresión concisa.
Como ha señalado, puede vincular a una matriz de datos de entrada x dejando logit p = β T x . A partir de aquí, la manipulación algebraica directa revela que log L ( p ; y ) es lo mismo que la primera L ( y , β T x ) en su pregunta (pista: ( y - 1 ) = - ( 1 - y ) ). Entonces, minimizando la pérdida de registro sobre { 0 ,Y x logitp=βTx logL(p;y) L(y,βTx) (y−1)=−(1−y) es equivalente a la estimación de máxima verosimilitud de un modelo de Bernoulli.{0,1}
Esta formulación también es un caso especial del modelo lineal generalizado , que se formula como para una función invertible, diferenciable gy una distribución D en la familia exponencial .Y∼D(θ), g(Y)=βTx g D
Formula 2
En realidad ... no estoy familiarizado con la Fórmula 2. Sin embargo, definir en { - 1 , 1 } es estándar en la formulación de una máquina de vectores de soporte . Ajustar un SVM corresponde a maximizar max ( { 0 , 1 - y β T x } ) + λ ‖ β ‖ 2 .y {−1,1}
fuente
Creo que @ssdecontrol tuvo una muy buena respuesta. Solo quiero agregar algunos comentarios para la fórmula 2 para mi propia pregunta.
The reason people like this formulation is that it is very concise, and it removes the "probability interpretation details".
The tricky notation is they^ , note, y is a binary variable, but y^ here is a real number. Comparing to formulation 1, we need two additional steps to make it to discrete label, step 1. sigmod function step 2. apply 0.5 threshold.
But without these details are good in terms of we can easily compare it with other classification loss, such as 01 loss or hinge loss.
Here we plot three loss functions, x axis isy⋅y^ and y axis is the loss value. Note, in all above formulas y^ is a real number, and this number can come from linear form βTx or other forms. Such notation hides probability details.
fuente