Me impresionaron los resultados en el documento ICML 2014 " Representaciones distribuidas de oraciones y documentos " de Le y Mikolov. La técnica que describen, llamada "vectores de párrafo", aprende representaciones sin supervisión de párrafos / documentos arbitrariamente largos, basados en una extensión del modelo word2vec. El documento informa sobre el rendimiento más avanzado en el análisis de sentimientos utilizando esta técnica.
Esperaba evaluar esta técnica en otros problemas de clasificación de texto, como una alternativa a la representación tradicional de la bolsa de palabras. Sin embargo, me encontré con una publicación del segundo autor en un hilo en el grupo de Google word2vec que me dio una pausa:
Intenté reproducir los resultados de Quoc durante el verano; Podría obtener tasas de error en el conjunto de datos IMDB de alrededor de 9.4% - 10% (dependiendo de qué tan buena sea la normalización del texto). Sin embargo, no pude acercarme a lo que Quoc informó en el documento (error del 7,4%, esa es una gran diferencia) ... Por supuesto, también le preguntamos a Quoc sobre el código; prometió publicarlo, pero hasta ahora no ha pasado nada. ... Estoy empezando a pensar que los resultados de Quoc en realidad no son reproducibles.
¿Alguien ha tenido éxito reproduciendo estos resultados todavía?
Respuestas:
Nota al pie en http://arxiv.org/abs/1412.5335 (uno de los autores es Tomas Mikolov) dice
fuente