Estoy pasando por los problemas en los problemas de asignación escrita de la clase de aprendizaje profundo de Stanford NLP http://cs224d.stanford.edu/assignment1/assignment1_soln
Estoy tratando de entender la respuesta para 3a donde están buscando la derivada del vector para la palabra central.
Suponga que se le da un vector de palabras pronosticado correspondiente a la palabra central c para el skipgram, y la predicción de palabras se realiza con la función softmax que se encuentra en los modelos word2vec.
Donde w denota la palabra w-ésima y (w = 1,..., W) son los vectores de palabras de "salida" para todas las palabras en el vocabulario. Suponga que el costo de entropía cruzada se aplica a esta predicción y que la palabra o es la palabra esperada.
Donde es la matriz de todos los vectores de salida, y dejar que y sea el vector columna de la predicción softmax de las palabras, y y sea la etiqueta de una sola caliente que También es un vector de columna.
Donde entropía cruz es
Entonces la respuesta para el gradiente para el vector central es
fuente