La motivación unidades de salida sigmoideas en redes neuronales que empiezan con probabilidades de registro unnormalized lineal en y

12

Antecedentes: estoy estudiando el capítulo 6 de Aprendizaje profundo de Ian Goodfellow y Yoshua Bengio y Aaron Courville. En la sección 6.2.2.2 (páginas 182 de 183 que se pueden ver aquí P(y=1|x) se motiva el uso de sigmoide para generar P (y = 1 | x) .

Para resumir parte del material, dejan que

z=wTh+b
sea ​​una neurona de salida antes de que se aplique una activación donde h es la salida de la capa oculta anterior, w es un vector de pesos b es un sesgo escalar. El vector de entrada se denota x (que h es una función de) y el valor de salida se denota y=ϕ(z) donde ϕ es la función sigmoide. El libro desea definir una distribución de probabilidad sobre y usando el valor z . Del segundo párrafo de la página 183:

Omitimos la dependencia de x por el momento para discutir cómo definir una distribución de probabilidad sobre y usando el valor z . El sigmoide puede ser motivado construyendo una distribución de probabilidad no normalizada P~(y) , que no suma 1. Podemos entonces dividir por una constante apropiada para obtener una distribución de probabilidad válida. Si comenzamos con el supuesto de que las probabilidades logarítmicas no normalizadas son lineales en y y z , podemos exponer para obtener las probabilidades no normalizadas. Luego nos normalizamos para ver que esto produce una distribución de Bernoulli controlada por una transformación sigmoidal de z:

logP~(y)=yzP~(y)=exp(yz)P(y)=exp(yz)y=01exp(yz)P(y)=ϕ((2y1)z)

Preguntas: Estoy confundido acerca de dos cosas, particularmente la primera:

  1. ¿De dónde viene la suposición inicial? ¿Por qué la probabilidad logarítmica no normalizada es lineal en y y z ? ¿Alguien puede darme una idea de cómo los autores comenzaron con logP~(y)=yz ?
  2. ¿Cómo sigue la última línea?
HBeel
fuente

Respuestas:

8

Hay dos resultados posibles para . Es muy importante, porque esta propiedad cambia el significado de la multiplicación. Hay dos casos posibles:y{0,1}

logP~(y=1)=zlogP~(y=0)=0

Además, es importante notar que la probabilidad logarítmica no normalizada para es constante. Esta propiedad deriva de la suposición principal. La aplicación de cualquier función determinista al valor constante producirá una salida constante. Esta propiedad simplificará la fórmula final cuando haremos la normalización sobre todas las probabilidades posibles, porque solo necesitamos saber la probabilidad no normalizada para y para siempre es constante. Y dado que la salida de la red tiene una probabilidad logarítmica no normalizada, solo necesitaremos una salida, porque se supone que otra es constante.y = 1 y = 0y=0y=1y=0

A continuación, estamos aplicando exponenciación a la probabilidad de logaritmo no normalizado para obtener una probabilidad no normalizada.

P~(y=1)=ezP~(y=0)=e0=1

A continuación, simplemente normalizamos las probabilidades dividiendo cada probabilidad no normalizada por la suma de todas las probabilidades posibles no normalizadas.

P(y=1)=ez1+ezP(y=0)=11+ez

Solo nos interesa , porque eso es lo que significa la probabilidad de la función sigmoidea. La función obtenida no parece sigmoidea en el primer vistazo, pero son iguales y es fácil de mostrar.P(y=1)

P(y=1)=ex1+ex=1ex+1ex=11+1ex=11+ex

La última declaración puede ser confusa al principio, pero es solo una forma de mostrar que esa función de probabilidad final es sigmoidea. El valor convierte a y a (o podemos decir que sería sin cambio).(2y1)0111

P(y)=σ((2y1)z)={σ(z)=11+ez=ez1+ezwhen y=1σ(z)=11+e(z)=11+ezwhen y=0

Como podemos ver, es solo la forma de mostrar la relación entre yσP(y)

itdxer
fuente
"Además, es importante notar que la probabilidad logarítmica no normalizada para es constante. Esta propiedad se deriva del supuesto principal". La suposición es que ya hemos decidido que ? y=0y=1
HBeel
Creo que mi confusión provino del hecho de que el sigmoide da la probabilidad del modelo de independientemente de la etiqueta real. ¡Gracias! y=1
HBeel
No quiero decir que sea grueso aquí, pero ¿cómo es lineal en y ? Esperaría algo de la forma . Me doy cuenta de que en el producto produciría una suma que me llevaría más cerca de la linealidad, pero eso no parece ser directo de lo que afirmó el autor. y×zyzay+bz+clogyz
zebullon
Ya veo, esa es una pregunta realmente interesante. No le presté atención a esta declaración cuando leí la pregunta por primera vez. Ahora también me parece extraño. Un problema es que y variable binaria y no estoy seguro de cómo verificar las propiedades de la función lineal en estas circunstancias. Supongo que tendrá sentido si haces preguntas por separado, tal vez alguien pueda explicarte por qué se ha escrito de esta manera.
itdxer
2

También encuentro que este fragmento del libro es difícil de seguir, y la respuesta anterior de itdxer merece bastante tiempo para ser comprendida también por alguien que no domina adecuadamente las probabilidades y el pensamiento matemático. Sin embargo, lo logré leyendo la respuesta al revés, así que comienza con el sigmoide de z

P(y=1)=ez1+ez=11+ez

e intenta seguir de nuevo a.

logP~(y)=yz

Entonces tiene sentido por qué comenzaron la explicación con yz: es por diseño, igual que el final

σ((2y1)z)

por construcción permite obtener -1 para y = 0 y 1 para y = 1, que son los únicos valores posibles de y bajo el Bernoulli.

Jakub Jurek
fuente
0

Aquí hay una redacción más formal que atraerá a aquellos con antecedentes teóricos de la medida.

Deje que sea ​​un Bernoulli rv y deje que denote la medida de avance, es decir, para , y deje que denote su contraparte no normalizada.YPYy{0,1}PY(y)=P(Y=y)P~Y

Tenemos la siguiente cadena de implicaciones:

logP~Y(y)=yzP~Y(y)=exp(yz)PY(y)=eyze0z+e1z=eyz1+ezPY(y)=yez1+ez+(1y)11+ezPY(y)=yσ(z)+(1y)σ(z)PY(y)=σ((2y1)z)

La última igualdad es una forma inteligente de mapear a{ - 1 , 1 }{0,1}{1,1}

Gabriel Romon
fuente