Valor esperado de una variable aleatoria gaussiana transformada con una función logística

10

Tanto la función logística como la desviación estándar generalmente se denotan como σ . Voy a usar σ(x)=1/(1+exp(x)) y s para la desviación estándar.

Tengo una neurona logística con una entrada aleatoria cuya media μ y desviación estándar s sé. Espero que la diferencia con respecto a la media se pueda aproximar bien con algún ruido gaussiano. Entonces, con un ligero abuso de notación, suponga que produce σ(μ+N(0,s2))=σ(N(μ,s2)) . ¿Cuál es el valor esperado de σ(N(μ,s2)) ?La desviación estándar s puede ser grande o pequeña en comparación con μ o 1 . Una buena aproximación de forma cerrada para el valor esperado sería casi tan buena como una solución de forma cerrada.

No creo que exista una solución de forma cerrada. Esto puede verse como una convolución, y se conoce la función característica de la densidad logística ( πt csch πt ), pero no estoy seguro de cuánto ayuda. La calculadora simbólica inversa no pudo reconocer la densidad en 0 de la convolución de la densidad de la distribución logística y una distribución normal estándar, lo que sugiere, pero no prueba, que no existe una integral elemental simple. Más evidencia circunstancial: en algunos documentos sobre la adición de ruido de entrada gaussiana a redes neuronales con neuronas logísticas, los documentos tampoco dieron expresiones de forma cerrada.

Esta pregunta surgió al tratar de comprender el error en la aproximación de campo media en las máquinas de Boltzman.

Douglas Zare
fuente

Respuestas:

5

Lo siguiente es lo que terminé usando:

σ(N(μ,s2))=σ(μ+X)XN(0,s2)

σ(μ+X)=σ(μ)+Xσ(μ)+X22σ(μ)+...+Xnn!σ(n)(μ)+...

E[σ(μ+X)]=E[σ(μ)]+E[Xσ(μ)]+E[X22σ(μ)]+...=σ(μ)+0+s22σ(μ)+0+3s424σ(4)(μ)+...+s2k2kk!σ(2k)(μ)...

Hay problemas de convergencia. La función logística tiene un polo donde , entonces en , impar. La divergencia no es lo mismo que el prefijo es inútil, pero esta aproximación en serie puede no ser confiable cuando es significativo.exp(x)=1x=kπikP(|X|>μ2+π2)

Dado que , podemos escribir derivados de como polinomios en . Por ejemplo, y . Los coeficientes están relacionados con OEIS A028246 .σ(x)=σ(x)(1σ(x))σ(x)σ(x)σ=σ3σ2+2σ3σ=σ7σ2+12σ36σ4

Douglas Zare
fuente
4

Lo que tienes aquí es una variable aleatoria que sigue una distribución logit-normal (o logistic-normal) (ver wikipedia ), es decir, . Los momentos de la distribución logit-normal no tienen soluciones analíticas.logit[x]N(μ,s2)

Pero, por supuesto, uno puede obtenerlos a través de la integración numérica. Si usa R, existe el paquete logitnorm que tiene todo lo que necesita. Un ejemplo:

install.packages("logitnorm")
library(logitnorm)
momentsLogitnorm(mu=1, sigma=2)

Esto produce:

> momentsLogitnorm(mu=1, sigma=2)
      mean        var 
0.64772644 0.08767866

Entonces, incluso hay una función de conveniencia que le dará directamente la media y la varianza.

Wolfgang
fuente