Artículo sobre similitud de coseno en Wikipedia
¿Puedes mostrar los vectores aquí (en una lista o algo así) y luego hacer los cálculos y dejarnos ver cómo funciona?
Soy un principiante.
Artículo sobre similitud de coseno en Wikipedia
¿Puedes mostrar los vectores aquí (en una lista o algo así) y luego hacer los cálculos y dejarnos ver cómo funciona?
Soy un principiante.
Respuestas:
Aquí hay dos textos muy cortos para comparar:
Julie loves me more than Linda loves me
Jane likes me more than Julie loves me
Queremos saber qué tan similares son estos textos, simplemente en términos de conteo de palabras (e ignorando el orden de las palabras). Comenzamos haciendo una lista de las palabras de ambos textos:
Ahora contamos la cantidad de veces que cada una de estas palabras aparece en cada texto:
Sin embargo, no estamos interesados en las palabras mismas. Solo nos interesan esos dos vectores verticales de conteos. Por ejemplo, hay dos instancias de 'yo' en cada texto. Vamos a decidir qué tan cerca están estos dos textos entre sí calculando una función de esos dos vectores, a saber, el coseno del ángulo entre ellos.
Los dos vectores son, de nuevo:
El coseno del ángulo entre ellos es de aproximadamente 0.822.
Estos vectores son de 8 dimensiones. Una virtud de usar la similitud del coseno es claramente que convierte una pregunta que está más allá de la capacidad humana de visualizar en una que pueda ser. En este caso, puede pensar en esto como el ángulo de unos 35 grados, que es una "distancia" de cero o un acuerdo perfecto.
fuente
Supongo que está más interesado en obtener una idea de " por qué " la similitud del coseno funciona (por qué proporciona una buena indicación de similitud), en lugar de " cómo " se calcula (las operaciones específicas utilizadas para el cálculo). Si le interesa este último, consulte la referencia indicada por Daniel en esta publicación, así como una pregunta SO relacionada .
Para explicar tanto el cómo y aún más el por qué, es útil, al principio, simplificar el problema y trabajar solo en dos dimensiones. Una vez que obtenga esto en 2D, es más fácil pensarlo en tres dimensiones y, por supuesto, más difícil de imaginar en muchas más dimensiones, pero para entonces podemos usar el álgebra lineal para hacer los cálculos numéricos y también para ayudarnos a pensar en términos de líneas / vectores / "planos" / "esferas" en n dimensiones, aunque no podemos dibujarlas.
Entonces, en dos dimensiones : con respecto a la similitud de texto, esto significa que nos enfocaríamos en dos términos distintos, digamos las palabras "Londres" y "París", y contaríamos cuántas veces se encuentra cada una de estas palabras en cada Los dos documentos que deseamos comparar. Esto nos da, para cada documento, un punto en el plano xy. Por ejemplo, si Doc1 tuvo París una vez, y Londres cuatro veces, un punto en (1,4) presentaría este documento (con respecto a esta evaluación diminuta de documentos). O, hablando en términos de vectores, este documento Doc1 sería una flecha que va desde el origen hasta el punto (1,4). Con esta imagen en mente, pensemos qué significa que dos documentos sean similares y cómo se relaciona esto con los vectores.
Documentos MUY similares (nuevamente con respecto a este conjunto limitado de dimensiones) tendrían la misma cantidad de referencias a París, y la misma cantidad de referencias a Londres, o tal vez, podrían tener la misma proporción de estas referencias. Un documento, Doc2, con 2 referencias a París y 8 referencias a Londres, también sería muy similar, solo con un texto más largo o de alguna manera más repetitivo de los nombres de las ciudades, pero en la misma proporción. Tal vez ambos documentos son guías sobre Londres, solo hacen referencias pasajeras a París (y lo poco interesante que es esa ciudad ;-) ¡¡¡Solo bromeo !!!.
Ahora, documentos menos similares también pueden incluir referencias a ambas ciudades, pero en diferentes proporciones. Quizás Doc2 solo citaría París una vez y Londres siete veces.
De vuelta a nuestro avión xy, si dibujamos estos documentos hipotéticos, vemos que cuando son MUY similares, sus vectores se superponen (aunque algunos vectores pueden ser más largos), y a medida que comienzan a tener menos en común, estos vectores comienzan a divergir, tener un ángulo más amplio entre ellos.
Al medir el ángulo entre los vectores, podemos tener una buena idea de su similitud , y hacer las cosas aún más fáciles, tomando el coseno de este ángulo, tenemos un buen valor de 0 a 1 o de -1 a 1 que es indicativo de esta similitud, dependiendo de qué y cómo contamos. Cuanto más pequeño es el ángulo, más grande (más cercano a 1) el valor del coseno, y también mayor es la similitud.
En el extremo, si Doc1 solo cita París y Doc2 solo cita Londres, los documentos no tienen absolutamente nada en común. Doc1 tendría su vector en el eje x, Doc2 en el eje y, el ángulo 90 grados, Coseno 0. En este caso, diríamos que estos documentos son ortogonales entre sí.
Agregar dimensiones :
con esta sensación intuitiva de similitud expresada como un ángulo pequeño (o coseno grande), ahora podemos imaginar cosas en 3 dimensiones, digamos al incorporar la palabra "Amsterdam" en la mezcla, y visualizar muy bien cómo un documento con dos las referencias a cada uno tendrían un vector en una dirección particular, y podemos ver cómo esta dirección se compararía con un documento que cita París y Londres tres veces cada uno, pero no Amsterdam, etc. Como se dijo, podemos tratar de imaginar esta fantasía espacio para 10 o 100 ciudades. Es difícil de dibujar, pero fácil de conceptualizar.
Terminaré simplemente diciendo algunas palabras sobre la fórmula misma . Como he dicho, otras referencias proporcionan buena información sobre los cálculos.
Primero en dos dimensiones. La fórmula para el coseno del ángulo entre dos vectores se deriva de la diferencia trigonométrica (entre el ángulo a y el ángulo b):
Esta fórmula se parece mucho a la fórmula del producto de puntos:
donde
cos(a)
corresponde alx
valor ysin(a)
ely
valor, para el primer vector, etc. El único problema, es quex
,y
, etc, no son exactamente loscos
ysin
sus valores, de estos valores tienen que ser leídos en el círculo unitario. Ahí es donde entra en juego el denominador de la fórmula: al dividir por el producto de la longitud de estos vectores, las coordenadasx
yy
se normalizan.fuente
Aquí está mi implementación en C #.
fuente
Por simplicidad, estoy reduciendo el vector ayb:
Entonces similitud coseno (Theta):
entonces inverso de cos 0.5 es 60 grados.
fuente
Este código de Python es mi intento rápido y sucio de implementar el algoritmo:
fuente
Usando el ejemplo de @Bill Bell, dos formas de hacer esto en [R]
o aprovechando el rendimiento del método crossprod () ...
fuente
Este es un
Python
código simple que implementa la similitud de coseno.fuente
fuente
Código JAVA simple para calcular la similitud de coseno
fuente
Existen dos vectores A y B en un espacio 2D o 3D, el ángulo entre esos vectores es cos similar.
Si el ángulo es mayor (puede alcanzar un máximo de 180 grados), que es Cos 180 = -1 y el ángulo mínimo es de 0 grados. cos 0 = 1 implica que los vectores están alineados entre sí y, por lo tanto, los vectores son similares.
cos 90 = 0 (que es suficiente para concluir que los vectores A y B no son similares en absoluto y dado que la distancia no puede ser negativa, los valores del coseno estarán entre 0 y 1. Por lo tanto, más ángulo implica reducir la similitud (visualizarlo también tiene sentido)
fuente