Los hiperplanos clasifican de manera óptima los datos cuando las entradas son condicionalmente independientes. ¿Por qué?

9

En el artículo titulado Deep Learning and the Information Bottleneck Principle, los autores declaran en la sección II A) lo siguiente:

Las neuronas individuales clasifican solo entradas separables linealmente, ya que pueden implementar solo hiperplanos en su espacio de entrada . Los hiperplanes pueden clasificar de manera óptima los datos cuando las entradas son indepen- dientemente condicionales.u=wh+b

Para mostrar esto, derivan lo siguiente. Usando el teorema de Bayes, obtienen:

(1)p(y|x)=11+exp(logp(x|y)p(x|y)logp(y)p(y))

Donde es la entrada, y es la clase e y ' es la clase predicha (supongo, y ' no está definido). Continuando, afirman que:xyyy

(2)p(x|y)p(x|y)=j=1N[p(xj|y)p(xj|y)]np(xj)

Donde es la dimensión de entrada yn no estoy seguro (nuevamente, ambos están indefinidos). Considerando una neurona sigmoidea, con la función de activación sigmoidea σ ( u ) = 1Nn y preactivaciónu, después de insertar (2) en (1) obtenemos los valores de peso óptimoswj=logp(xj|y)σ(u)=11+exp(u)u yb=logp(y)wj=logp(xj|y)p(xj|y) , cuando los valores de entradahj=np(xj).b=logp(y)p(y)hj=np(xj)

Ahora a mis preguntas. Entiendo cómo insertar (2) en (1) conduce al peso óptimo y a los valores de entrada . Sin embargo, lo que no entiendo es lo siguiente:w,b,h

  1. ¿Cómo se deriva (1) usando el teorema de Bayes?
  2. ¿Cómo se deriva (2)? ¿Qué es ? ¿Cuál es el significado de eso? Supongo que tiene algo que ver con la independencia condicional.n
  3. Incluso si las dimensiones de x son condicionalmente independientes, ¿cómo se puede afirmar que es igual a su probabilidad escalada? (es decir, ¿cómo puedes decir ?)hj=np(xj)

EDITAR: La variable es una variable de clase binaria. De esto supongo que y es la clase "otra". Esto resolvería la pregunta 1. ¿Estás de acuerdo?yy

espurra
fuente
np(xj)

Respuestas:

5

Lamentamos los detalles que faltan en nuestro breve artículo, pero estas relaciones y conexiones entre la prueba de relación de probabilidad y las neuronas sigmoidales ciertamente no son nuevas, y se pueden encontrar en los libros de texto (por ejemplo, Bishop 2006). En nuestro artículo, 'N' es la dimensión de entrada y 'n' es el tamaño de la muestra de prueba (que en realidad se traduce en la SNR de entrada bajo el supuesto de que la SNR crece como sqrt (n)). La conexión a la función sigmoidal se realiza a través de la regla de Bayes, como la posterior de la clase. Nada en el resto del documento y nuestro artículo más nuevo y más importante de 2017 en realidad depende de esto.

Naftali Tishby

Naftali Tishby
fuente
2
Gracias por aclarar esto aquí. Es una práctica estándar en esta comunidad escribir citas completas para que los lectores interesados ​​puedan buscar las fuentes. ¿Podrías hacer esto por Bishop (2006)?
mkt - Restablecer Monica
4

Para 1

P(yx)=P(y,x)P(x)

=P(y,x)iP(yi,x)

yi

=P(y,x)P(y,x)+P(y,x)

=11+P(y,x)P(y,x)

=11+exp[log P(y,x)P(y,x)]

y a partir de ahí es solo la propiedad del logaritmo para llegar a la forma final (debería estar lo suficientemente claro en este punto, avíseme si no).

Chris Ormandy
fuente
4

Esta es una configuración de modelo en la que los autores están utilizando una forma especial del teorema de Bayes que se aplica cuando tiene una variable binaria de interés. Primero derivan esta forma especial del teorema de Bayes como Ecuación (1), y luego muestran que la condición en la Ecuación (2) los lleva a la forma lineal especificada para su red. Es importante tener en cuenta que la última ecuación no se deriva de condiciones anteriores, sino que es una condición para la forma lineal que están utilizando para su red.


yyY

p(y|x)=p(y,x)p(x)=p(x|y)p(y)p(x|y)p(y)+p(x|y)p(y)=11+p(x|y)p(y)/p(x|y)p(y)=11+exp(log(p(x|y)p(y)p(x|y)p(y)))=11+exp(logp(x|y)p(x|y)logp(y)p(y))=logistic(logp(x|y)p(x|y)+logp(y)p(y)).

x=(x1,...,xN)N

logp(x|y)p(x|y)=logi=1N[p(xi|y)p(xi|y)]np(xi)=i=1Nnp(xi)log[p(xi|y)p(xi|y)]=i=1Nhiwi.

Bajo esta condición, por lo tanto, obtenemos la forma posterior:

p(y|x)=logistic(logp(x|y)p(x|y)+logp(y)p(y))=logistic(i=1Nhiwi+b),

nxy

Ben - Restablece a Monica
fuente
n
Gracias. He editado mi respuesta para reflejar esta información adicional.
Ben - Restablece a Mónica el