En general, las redes neuronales no se utilizan para modelar densidades de probabilidad completas. Su enfoque es simplemente modelar la media de una distribución (o en una situación determinista simplemente una función no lineal). Sin embargo, es muy posible modelar densidades de probabilidad completas a través de redes neuronales.
Una manera fácil de hacer esto es, por ejemplo, para un caso gaussiano es emitir la media de una salida y la varianza de otra salida de la red y luego minimizar −logN(y|x;μ,σ) funcionan como parte de el proceso de entrenamiento en lugar del error al cuadrado común. Este es el procedimiento de máxima probabilidad para una red neuronal.
Una vez que entrene esta red cada vez que conecte un valor de como entrada, le dará el μ y el σ , entonces puede conectar todo el triplete y , μ , σ a la densidad f ( y | x ) ∼ N ( μ , σ ) para obtener el valor de densidad para cualquier y que desee. En esta etapa se puede elegir qué y valor a utilizar en función de una función de pérdida de dominio real. Una cosa a tener en cuenta es que para μxμσy,μ,σf(y|x)∼N(μ,σ)yyμ la activación de salida no debe estar restringida para que pueda emitir a + inf mientras que σ debería ser una activación positiva solamente.−inf+infσ
En general, a menos que se trate de una función determinista, el entrenamiento estándar de pérdida al cuadrado utilizado en las redes neuronales es prácticamente el mismo procedimiento que describí anteriormente. Debajo del capó se asume implícitamente una distribución sin preocuparse por el σ y si se examina cuidadosamente - l o g N ( y | x ; μ , σ ) le da una expresión para la pérdida al cuadrado ( La pérdida función del estimador gaussiano de máxima verosimilitud ). En este escenario, sin embargo, en lugar de a yGaussianσ−logN(y|x;μ,σ)yvalor a su gusto, está atascado con la emisión de cada vez que se le da una nueva xμx valor de .
Para la clasificación, la salida será una distribución lugar de una G a u s s i a n , que tiene un único parámetro para emitir. Como se especifica en la otra respuesta, este parámetro está entre 0 y 1BernoulliGaussian01 por lo que la activación de salida debe ser acorde. Puede ser una función logística u otra cosa que logre el mismo propósito.
Un enfoque más sofisticado es Bishop's Mixture Density Networks. Puede leer sobre esto en el documento de referencia frecuente aquí:
https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf