Solo estoy trabajando con el libro Inteligencia colectiva (de Toby Segaran) y encontré el puntaje de distancia euclidiana. En el libro, el autor muestra cómo calcular la similitud entre dos conjuntos de recomendaciones (es decir, .
Calcula la distancia euclidiana para dos personas y por p 2 d ( p 1 , p 2 ) = √
Esto tiene mucho sentido para mí. Lo que realmente no entiendo es por qué calcula al final lo siguiente para obtener una "similitud basada en la distancia":
Entonces, de alguna manera entiendo que esta debe ser la conversión de una distancia a una similitud (¿verdad?). Pero, ¿por qué el formulario se ve así? ¿Alguien puede explicar eso?
distance-functions
similarities
navige
fuente
fuente
Respuestas:
Lo inverso es cambiar de distancia a similitud.
El 1 en el denominador es para que el valor máximo sea 1 (si la distancia es 0).
La raíz cuadrada: no estoy seguro. Si la distancia es generalmente mayor que 1, la raíz hará que las distancias grandes sean menos importantes; Si la distancia es menor que 1, hará que las distancias grandes sean más importantes.
fuente
Para medir la distancia y la similitud (en sentido semántico), lo primero que debe verificar es si se está moviendo en un espacio euclidiano o no. Una forma empírica de verificar esto es estimar la distancia de un par de valores para los que conoce el significado.
fuente
Como mencionó, conoce el cálculo de la distancia de Euclidence, así que estoy explicando la segunda fórmula.
La fórmula euclidiana calcula la distancia, que será más pequeña para las personas o elementos que son más similares. Como si fueran iguales, entonces la distancia es 0 y totalmente diferente, entonces mayor que 0.
Sin embargo, necesitamos una función que les dé un mayor valor, ya que son similares. Esto se puede hacer agregando 1 a la función (para que no obtenga un error de división por cero) e invirtiéndolo. Como si la distensión 0 y la puntuación de similitud 1/1 = 1
fuente