Antecedentes: estoy estudiando el capítulo 6 de Aprendizaje profundo de Ian Goodfellow y Yoshua Bengio y Aaron Courville. En la sección 6.2.2.2 (páginas 182 de 183 que se pueden ver aquí se motiva el uso de sigmoide para generar P (y = 1 | x) .
Para resumir parte del material, dejan que
Omitimos la dependencia de por el momento para discutir cómo definir una distribución de probabilidad sobre usando el valor . El sigmoide puede ser motivado construyendo una distribución de probabilidad no normalizada , que no suma 1. Podemos entonces dividir por una constante apropiada para obtener una distribución de probabilidad válida. Si comenzamos con el supuesto de que las probabilidades logarítmicas no normalizadas son lineales en y , podemos exponer para obtener las probabilidades no normalizadas. Luego nos normalizamos para ver que esto produce una distribución de Bernoulli controlada por una transformación sigmoidal de z:
Preguntas: Estoy confundido acerca de dos cosas, particularmente la primera:
- ¿De dónde viene la suposición inicial? ¿Por qué la probabilidad logarítmica no normalizada es lineal en y ? ¿Alguien puede darme una idea de cómo los autores comenzaron con ?
- ¿Cómo sigue la última línea?
También encuentro que este fragmento del libro es difícil de seguir, y la respuesta anterior de itdxer merece bastante tiempo para ser comprendida también por alguien que no domina adecuadamente las probabilidades y el pensamiento matemático. Sin embargo, lo logré leyendo la respuesta al revés, así que comienza con el sigmoide de z
e intenta seguir de nuevo a.
Entonces tiene sentido por qué comenzaron la explicación con yz: es por diseño, igual que el final
por construcción permite obtener -1 para y = 0 y 1 para y = 1, que son los únicos valores posibles de y bajo el Bernoulli.
fuente
Aquí hay una redacción más formal que atraerá a aquellos con antecedentes teóricos de la medida.
Deje que sea un Bernoulli rv y deje que denote la medida de avance, es decir, para , y deje que denote su contraparte no normalizada.Y PY y∈{0,1} PY(y)=P(Y=y) P~Y
Tenemos la siguiente cadena de implicaciones:
La última igualdad es una forma inteligente de mapear a{ - 1 , 1 }{0,1} {−1,1}
fuente