¿Existe alguna relación entre la similitud del coseno, la correlación de Pearson y la puntuación z?

16

Me pregunto si hay alguna relación entre estas 3 medidas. Parece que no puedo establecer una conexión entre ellos al referirme a las definiciones (posiblemente porque soy nuevo en estas definiciones y me está costando un poco entenderlas).

Sé que el rango de la similitud del coseno puede ser de 0 a 1, y que la correlación de Pearson puede variar de -1 a 1, y no estoy seguro sobre el rango de la puntuación z.

Sin embargo, no sé cómo un cierto valor de similitud de coseno podría decirle algo sobre la correlación de Pearson o la puntuación z, y viceversa.

Jaken Herman
fuente
1
z puntaje de qué ? Las puntuaciones z de algunas cosas pueden estar relacionadas con la correlación de Pearson, las puntuaciones Z de otras cosas pueden no estarlo. Por ejemplo, si estandariza internamente sus variables originales, entonces la correlación de Pearson entre x e y es el producto esperado de sus puntajes z. O podría estar hablando de puntajes z de correlaciones de Pearson (correlaciones de Pearson menos sus expectativas bajo alguna condición, todo dividido por el error estándar de la correlación de Pearson), que sin duda estaría relacionado con la correlación de Pearson.
Glen_b -Reinstalar Monica
1
Relación directa: stats.stackexchange.com/a/22520/3277
ttnphns

Respuestas:

29

ab

cosθ=unsiunsi

Para un vector el vector " -score" se definiría típicamente como donde y son la media y la desviación estándar de . Entonces, tiene media 0 y desviación estándar 1, es decir, es la versión estandarizada de .z z = x - ˉ xXz ˉ x =1

z=X-X¯sX
s 2 x = ¯ ( x - ˉ x ) 2 xzzxxX¯=1norteyoXyosx2=(xx¯)2¯xzzxx

Para dos vectores e , su coeficiente de correlación sería xy

ρx,y=(zxzy)¯

Ahora, si el vector tiene media cero, entonces su varianza será , por lo que su vector unitario y su puntaje z estarán relacionados por asa2=1na2

a^=aa=zan

Así que si los vectores de y están centradas (es decir, tienen cero medios), entonces su similitud coseno serán los mismos como su coeficiente de correlación.ab

TL; DR La similitud del coseno es un producto escalar de vectores unitarios. La correlación de Pearson es la similitud de coseno entre vectores centrados. La "transformación de puntuación Z" de un vector es el vector centrado escalado a una norma de .n

GeoMatt22
fuente
+1. Comentario latexnazi: a \|menudo se ve mejor ||y \lVert ... \rVertes la mejor manera de escribirlo.
ameba dice Reinstate Monica