Deje que los datos sean . Escriba para la distribución empírica. Por definición, para cualquier función ,x=(x1,…,xn)F(x)f
EF(x)[f(X)]=1n∑i=1nf(xi).
Deje que el modelo tenga densidad donde se define en el soporte del modelo. La entropía cruzada de y se define comoMef(x)F ( x ) MfF(x)M
H(F(x),M)=−EF(x)[log(ef(X)]=−EF(x)[f(X)]=−1n∑i=1nf(xi).(1)
Suponiendo que es una muestra aleatoria simple, su probabilidad de registro negativa esx
−log(L(x))=−log∏i=1nef(xi)=−∑i=1nf(xi)(2)
en virtud de las propiedades de los logaritmos (convierten productos en sumas). La expresión es una expresión constante veces . Debido a que las funciones de pérdida se usan en estadísticas solo comparándolas, no importa que una sea constante (positiva) por la otra. Es en este sentido que la probabilidad de registro negativa "es una" entropía cruzada en la cita.n ( 1 )(2)n(1)
Se necesita un poco más de imaginación para justificar la segunda afirmación de la cita. La conexión con el error al cuadrado es clara, porque para un "modelo gaussiano" que predice valores en los puntos , el valor de en cualquiera de esos puntos esx fp(x)xf
f(x;p,σ)=−12(log(2πσ2)+(x−p(x))2σ2),
que es el error al cuadrado pero redimensionado por y desplazado por una función de . Una forma de corregir la cita es asumir que no considera que parte del "modelo" - debe determinarse de alguna manera independientemente de los datos. En ese caso, las diferencias entre los errores cuadrados medios son proporcionales a las diferencias entre las entropías cruzadas o las probabilidades logarítmicas, lo que hace que los tres sean equivalentes para los propósitos de ajuste del modelo.1 / ( 2 σ 2 ) σ(x−p(x))2 1/(2σ2)σσσσ
(Sin embargo, , se ajusta como parte del proceso de modelado, en cuyo caso la cita no sería del todo correcta).σ=σ(x)
Para los lectores del libro Deep Learning, me gustaría agregar a la excelente respuesta aceptada que los autores explican su declaración en detalle en la sección 5.5.1, a saber, el Ejemplo: Regresión lineal como máxima verosimilitud .
Allí, enumeran exactamente la restricción mencionada en la respuesta aceptada:
Luego, muestran que la minimización del MSE corresponde a la Estimación de máxima verosimilitud y, por lo tanto, la minimización de la entropía cruzada entre la distribución empírica y .p(y|x)
fuente