Me pregunto cómo etiquetar (etiquetar) oraciones / párrafos / documentos con doc2vec en gensim, desde un punto de vista práctico.
¿Necesita tener cada oración / párrafo / documento con su propia etiqueta única (por ejemplo, "Sent_123")? Esto parece útil si desea decir "qué palabras u oraciones son más similares a una oración específica única llamada" Sent_123 ".
¿Se puede repetir las etiquetas según el contenido? Por ejemplo, si cada oración / párrafo / documento trata sobre un determinado artículo del producto (y hay varias oraciones / párrafos / documentos para un artículo del producto dado), puede etiquetar las oraciones en función del artículo y luego calcular la similitud entre una palabra o un oración y esta etiqueta (que supongo que sería como un promedio de todas esas oraciones que tenían que ver con el artículo del producto)?
dm=0, dbow_words=1
.doc2vec
modelo obtiene su algoritmo deword2vec
.En
word2vec
no hay necesidad de etiquetar las palabras, porque cada palabra tiene su propio significado semántico en el vocabulario. Pero en caso dedoc2vec
que sea necesario especificar qué cantidad de palabras u oraciones transmiten un significado semántico, de modo que el algoritmo pueda identificarlo como una entidad única. Por esta razón, estamos especificandolabels
otags
para orar o párrafo dependiendo del nivel de significado semántico transmitido.Si especificamos una sola etiqueta para múltiples oraciones en un párrafo, significa que todas las oraciones en el párrafo son necesarias para transmitir el significado. Por otro lado, si especificamos etiquetas variables para todas las oraciones en un párrafo, significa que cada una transmite un significado semántico y pueden o no tener similitud entre ellas.
En términos simples, un
label
significa significado semántico de algo.fuente
If we specify a single label to multiple sentences in a paragraph, it means that all the sentences in the paragraph are required to convey the meaning.
No estoy seguro de estar entendiendo esto correctamente. Según los algoritmos POV, ¿se necesitan todas las oraciones con la misma etiqueta para la definición semántica o todas las oraciones con la misma etiqueta describen lo mismo? En el primer caso, ninguna oración individual es autosuficiente por sí misma, en el segundo caso, una sola oración es autosuficiente.