Me pregunto si hay alguna relación entre estas 3 medidas. Parece que no puedo establecer una conexión entre ellos al referirme a las definiciones (posiblemente porque soy nuevo en estas definiciones y me está costando un poco entenderlas).
Sé que el rango de la similitud del coseno puede ser de 0 a 1, y que la correlación de Pearson puede variar de -1 a 1, y no estoy seguro sobre el rango de la puntuación z.
Sin embargo, no sé cómo un cierto valor de similitud de coseno podría decirle algo sobre la correlación de Pearson o la puntuación z, y viceversa.
correlation
z-score
cosine-similarity
Jaken Herman
fuente
fuente
Respuestas:
Para un vector el vector " -score" se definiría típicamente como donde y son la media y la desviación estándar de . Entonces, tiene media 0 y desviación estándar 1, es decir, es la versión estandarizada de .z z = x - ˉ xX z ˉ x =1
Para dos vectores e , su coeficiente de correlación seríax y
Ahora, si el vector tiene media cero, entonces su varianza será , por lo que su vector unitario y su puntaje z estarán relacionados pora s2a=1n∥a∥2
Así que si los vectores de y están centradas (es decir, tienen cero medios), entonces su similitud coseno serán los mismos como su coeficiente de correlación.a b
TL; DR La similitud del coseno es un producto escalar de vectores unitarios. La correlación de Pearson es la similitud de coseno entre vectores centrados. La "transformación de puntuación Z" de un vector es el vector centrado escalado a una norma de .n−−√
fuente
\|
menudo se ve mejor||
y\lVert ... \rVert
es la mejor manera de escribirlo.