Estoy usando significa agrupamiento para agrupar las voces de los hablantes. Cuando comparo un enunciado con datos de altavoces agrupados obtengo una distorsión promedio (basada en la distancia euclidiana). Esta distancia puede estar en el rango de . Quiero convertir esta distancia en una puntuación de similitud . Por favor, guíame sobre cómo puedo lograr esto.
clustering
k-means
distance
euclidean
Mahoma
fuente
fuente
También puedes usar:1edist dónde
dist
está su función de distancia deseada.fuente
Parece que quiere algo similar a la similitud del coseno, que es en sí mismo un puntaje de similitud en el intervalo de la unidad. De hecho, existe una relación directa entre la distancia euclidiana y la similitud del coseno.
Observa que
Mientras que la similitud del coseno es
Cuando tenemos | El | x - x ′ | El | 2 = 2 ( 1 - f ( x , x ' ) ) y f ( x , x ' ) = x T x ' ,||x||=||x′||=1,
entonces
Desde una perspectiva computacional, puede ser más eficiente simplemente calcular el coseno, en lugar de la distancia euclidiana y luego realizar la transformación.
fuente
How about a Gaussian kernel ?
The distance∥x−x′∥ is used in the exponent. The kernel value is in the range [0,1] . There is one tuning parameter σ . Basically if σ is high, K(x,x′) will be close to 1 for any x,x′ . If σ is low, a slight distance from x to x′ will lead to K(x,x′) being close to 0.
fuente
If you are using a distance metric that is naturally between 0 and 1, like Hellinger distance. Then you can use 1 - distance to obtain similarity.
fuente