Hice una pregunta similar sobre la distancia entre "documentos" (artículos de Wikipedia, noticias, etc.). Hice esta pregunta por separado porque las consultas de búsqueda son considerablemente más pequeñas que los documentos y son mucho más ruidosas. Por lo tanto, no sé (y dudo) si las mismas métricas de distancia se usarían aquí.
Se prefieren las métricas de distancia léxica de vainilla o las métricas de distancia semántica de última generación, con mayor preferencia por esta última.
machine-learning
nlp
search
Mate
fuente
fuente
Respuestas:
Según mi experiencia, solo algunas clases de consultas pueden clasificarse en características léxicas (debido a la ambigüedad del lenguaje natural). En su lugar, puede intentar utilizar los resultados de búsqueda booleanos (sitios o segmentos de sitios, no documentos, sin clasificación) como características para la clasificación (en lugar de palabras). Este enfoque funciona bien en clases donde hay una gran ambigüedad léxica en una consulta pero existen muchos sitios buenos relevantes para la consulta (por ejemplo, películas, música, consultas comerciales, etc.).
Además, para la clasificación fuera de línea, puede hacer LSI en la matriz del sitio de consulta. Consulte el libro "Introducción a la recuperación de información" para obtener más información.
fuente
La métrica de similitud de coseno hace un buen trabajo (si no perfecto) de controlar la longitud del documento, por lo que comparar la similitud de 2 documentos o 2 consultas utilizando la métrica de coseno y los pesos tf idf para las palabras debería funcionar bien en cualquier caso. También recomendaría hacer LSA primero en pesos tf idf, y luego calcular la distancia coseno \ similitudes.
Si está tratando de construir un motor de búsqueda, le recomendaría usar un motor de búsqueda de código abierto gratuito como solr o búsqueda elástica, o solo las bibliotecas de lucene sin procesar, ya que hacen la mayor parte del trabajo por usted y tienen buenos métodos incorporados para manejo de la consulta para documentar el problema de similitud.
fuente