Softmax jerárquico construye un árbol sobre todo el vocabulario y los nodos de las hojas que representan palabras raras inevitablemente heredarán las representaciones vectoriales de sus antepasados en el árbol, que pueden verse afectadas por otras palabras frecuentes en el corpus. Esto beneficiará el entrenamiento incremental para nuevos corpus.
El muestreo negativo se desarrolla en base a la estimación de contraste de ruido y muestrea aleatoriamente las palabras que no están en el contexto para distinguir los datos observados del ruido aleatorio generado artificialmente.