Entiendo que dado un conjunto de observaciones independientes el Estimador de máxima verosimilitud (o, de manera equivalente, el MAP con anterior plano / uniforme) que identifica los parámetros \ mathbf {θ} que producen la distribución del modelo p_ {modelo} \ izquierda (\, \ cdot \,; \ mathbf {θ} \ right) que mejor coincida con esas observaciones será
o, más convenientemente
y vea el papel que puede desempeñar en la definición de una función de pérdida para redes neuronales profundas de múltiples clases, en la que corresponde a los parámetros entrenables de la red (por ejemplo, y las observaciones son los pares de activaciones de entrada y las correspondientes etiquetas de clase correctas , = { }, tomando
Lo que no entiendo es cómo esto se relaciona con la llamada "entropía cruzada" de la salida correcta (vectorizada), , y las activaciones de salida correspondientes de la red, que se utiliza en la práctica cuando la medición de error / pérdida durante el entrenamiento . Hay varios problemas relacionados:
Activaciones "como probabilidades"
Uno de los pasos para establecer la relación entre MLE y la entropía cruzada es utilizar las activaciones de salida "como si" fueran probabilidades. Pero no está claro para mí que lo sean, o al menos que lo sean .
Al calcular el error de entrenamiento, específicamente, al llamarlo una "pérdida de entropía cruzada", se supone que (después de normalizar las activaciones para sumar 1)
o
para que podamos escribir
y por lo tanto
Pero si bien esto hace que una probabilidad (en la medida en que algo sea), no impone restricciones a las otras activaciones.
¿Puede realmente son PMF en ese caso? ¿Hay algo que haga que no sean, de hecho, probabilidades (y simplemente "me gusten") )?
Limitación a la categorización.
El paso crucial anterior para equiparar MLE con entropía cruzada se basa completamente en la estructura "one-hot" de que caracteriza un problema de aprendizaje de múltiples clases (etiqueta única). Cualquier otra estructura para haría imposible pasar de a .
¿La ecuación de MLE y minimización de entropía cruzada se limita a los casos en que son "one-hot"?
Diferentes probabilidades de entrenamiento y predicción
Durante la predicción, casi siempre es el caso que
lo que resulta en probabilidades de predicción correctas que son diferentes de las probabilidades aprendidas durante el entrenamiento a menos que sea confiablemente el caso que
¿Es este el caso de manera confiable? ¿Es probable que sea al menos aproximadamente cierto? ¿O hay algún otro argumento que justifique esta ecuación del valor de la activación aprendida en la posición de la etiqueta con la probabilidad de que el valor máximo de las activaciones aprendidas ocurra allí?
Entropía y teoría de la información.
Incluso suponiendo que se aborden las preocupaciones anteriores y que las activaciones sean PMF válidas (o que puedan tratarse de manera significativa como tales), de modo que el papel desempeñado por la entropía cruzada en la computación no sea problemático, no está claro Me pregunto por qué es útil o significativo hablar sobre la entropía del , ya que la entropía de Shanon se aplica a un tipo de codificación , que no es la que se usa para entrenar la red.
¿Qué papel juega la entropía teórica de la información en la interpretación de la función de costo, en lugar de simplemente proporcionar una herramienta (en forma de entropía cruzada) para calcular una (que corresponde a MLE)?
softmax_cross_entropy_with_logits
: calculan y, por lo tanto, que define una red "diseñada para" producir probabilidades (al menos en la ubicación de la etiqueta). ¿No?Contestaré desde una perspectiva un poco más general, con respecto a la naturaleza de cómo, cuándo y por qué podemos considerar las salidas NN como distribuciones de probabilidad.
En el sentido de que el softmax impone que las salidas sumen 1 y que no sean negativas, la salida de la red es una distribución de probabilidad discreta sobre las clases, o al menos puede interpretarse como tal. Por lo tanto, es perfectamente razonable hablar de entropías cruzadas y probabilidades máximas.
Sin embargo, lo que creo que está viendo (y es correcto), es que las "probabilidades" de salida pueden no tener nada que ver con la probabilidad real de corrección . Este es un problema bien conocido en ML, llamado calibración . Por ejemplo, si su clasificador de perros y gatos dice , entonces esperaría que si tomara un conjunto de ejemplos todos los cuales tenían , entonces aproximadamente el 30% de las entradas estarían mal clasificadas (ya que solo tenía un 70% de confianza).fθ D C fθ(xi,C)=P(xi=C|θ)=0.7 S={xj} P(xj=C|θ)=0.7
Sin embargo, resulta que los métodos de entrenamiento modernos no hacen cumplir esto en absoluto. Ver Guo et al, sobre la calibración de redes neuronales modernas para ver una discusión sobre esto.
En otras palabras, la "probabilidad" de la salida del softmax puede no tener nada que ver con la confianza real del modelo. Y esto no es una sorpresa: simplemente queremos maximizar nuestra precisión, y cada ejemplo de entrada tiene una probabilidad de 1 de ser su clase objetivo. Hay pocos incentivos para que el modelo haga esto bien. Si no necesita estimar la incertidumbre, ¿por qué debería hacerlo? La entropía cruzada no corrige este problema; de hecho, ¡le está diciendo que vaya a una función delta cada vez!
Muchos trabajos recientes sobre redes neuronales bayesianas se esfuerzan por rectificar este problema. Dichos modelos emplean una distribución sobre parámetros dados los datos , que pueden integrarse para obtener una distribución de probabilidad real . Esto ayuda a garantizar mediciones útiles de incertidumbre y una mejor calibración. Sin embargo, es más problemático computacionalmente.P(θ|X)=P(X|θ)P(θ)/P(X) P(yi|xi,X)=∫P(yi|θ,xi)P(θ|X)dθ
¡Espero no haber entendido mal tu pregunta!
fuente
Las redes neuronales de avance se aproximan a las verdaderas probabilidades de clase cuando se entrenan adecuadamente.
En 1991, Richard y Lippmann demostraron que las redes neuronales de avance se acercan a las probabilidades de clase posterior, cuando se entrenan con {0,1} patrones objetivo de indicadores de clase [ Richard MD, y Lippmann RP (1991). Los clasificadores de redes neuronales estiman las probabilidades bayesianas a posteriori. Computación neuronal, 3, 461–483 .]. En su línea de prueba, usan redes neuronales de alimentación oculta de una capa.
En la anotación matemática de Duda & Hart [ Clasificación de patrones y análisis de escena Duda RO & Hart PE (1973), Wiley ], defina las distribuciones de características proporcionadas como vector de entrada a la red neuronal de avance como , donde, por ejemplo, el vector de datos es igual a , para una tarea de clasificación con 4 variables de características. El índice indica las posibles clases, .P(x∣ωi) x=(0.2,10.2,0,2) i n i∈{1,…,n}
El clasificador de la red neuronal de alimentación anticipada aprende las probabilidades posteriores, , cuando se entrena por descenso de gradiente. Las necesidades patrón de salida deseados , por ejemplo para ser , para un problema de clasificación de dos clases. La red neuronal de avance tiene un nodo de salida por clase. El vector indica que el vector de características observado pertenece a la segunda clase.P^(ωi∣x) o=(0,1) (0,1)
fuente
La probabilidad de registro no está directamente vinculada a la entropía en el contexto de su pregunta. La similitud es superficial: ambos tienen sumas de logaritmos de cantidades probabilísticas.
El logaritmo en log-verosimilitud (MLE) se realiza únicamente por razones de cálculo numérico. El producto de las probabilidades puede ser un número muy pequeño, especialmente si su muestra es grande. Luego, el rango de probabilidades va de 1 a un valor desaparecentemente pequeño de un producto. Cuando obtiene el registro, el producto se convierte en una suma y la función de registro comprime el rango de valores a un dominio más pequeño y más manejable. El logaritmo es una función monótona, por lo que el máximo (mínimo) de la probabilidad logarítmica producirá la misma respuesta de la probabilidad misma. Por lo tanto, la presencia del registro en la expresión MLE no es importante en sentido matemático, y es simplemente una cuestión de conveniencia.
La presencia de una función logarítmica en la entropía es más sustancial y tiene sus raíces en la mecánica estadística, una rama de la física. Está vinculado a la distribución de Boltzmann , que se utiliza en la teoría de los gases. Podría derivar la presión del aire en función de la altitud que la usa, por ejemplo.
fuente