Idéntico significado, que producirá resultados idénticos para una clasificación entre un vector de similitud u y un conjunto de vectores V .
Tengo un modelo de espacio vectorial que tiene la medida de distancia (distancia euclidiana, similitud de coseno) y la técnica de normalización (ninguno, l1, l2) como parámetros. Según tengo entendido, los resultados de la configuración [coseno, ninguno] deberían ser idénticos o al menos realmente muy similares a [euclidiana, l2], pero no lo son.
En realidad, hay una buena posibilidad de que el sistema siga teniendo errores, ¿o tengo algún problema crítico con los vectores?
editar: Olvidé mencionar que los vectores se basan en el recuento de palabras de documentos en un corpus. Dado un documento de consulta (que también transformo en un vector de conteo de palabras), quiero encontrar el documento de mi corpus que es más similar a él.
Simplemente calcular su distancia euclidiana es una medida directa, pero en el tipo de tarea en la que trabajo, la similitud del coseno a menudo se prefiere como un indicador de similitud, porque los vectores que solo difieren en longitud todavía se consideran iguales. El documento con la menor similitud distancia / coseno se considera el más similar.
Respuestas:
Para vectores normalizados , tenemos que el cuadrado Euclidiano la distancia es proporcional a la distancia del coseno , Es decir, incluso si normalizara sus datos y su algoritmo fuera invariable al escalado de las distancias, aún esperaría diferencias debido a la cuadratura.ℓ2 x,y
fuente
La similitud del coseno estándar se define de la siguiente manera en un espacio euclidiano, suponiendo que los vectores de columna y : Esto se reduce al producto interno estándar si sus vectores están normalizados a la norma de la unidad (en l2). En la minería de texto, este tipo de normalización no es desconocido, pero no lo consideraría el estándar.u v
fuente