¿Existe una relación matemática entre:
- la similitud del coseno de dos vectores y , y
- ¿La similitud del coseno de y , escalada de manera no uniforme a través de una matriz dada ? Aquí es una matriz diagonal dada con elementos desiguales en la diagonal.
Intenté repasar los cálculos, pero no pude alcanzar un enlace simple / interesante (expresión). Me pregunto si hay uno.
Por ejemplo, los ángulos no se conservan en una escala no uniforme, pero ¿cuál es la relación entre los ángulos originales y los posteriores a la escala no uniforme? ¿Qué se puede decir sobre el enlace entre un conjunto de vectores S1 y otro conjunto de vectores S2, donde S2 se obtiene escalando de manera no uniforme S1?
linear-algebra
cosine-similarity
turdus-merula
fuente
fuente
Respuestas:
Debido a que es bastante general, y el cambio en la similitud del coseno depende de y particulares y su relación con , no es posible una fórmula definida. Sin embargo, existen límites prácticamente calculables de cuánto puede cambiar la similitud del coseno . Se pueden encontrar extremizando el ángulo entre y dado que la similitud del coseno entre y es un valor especificado, digamos (donde es el ángulo entre y ). La respuesta nos dice cuánto cualquier ánguloA B M M A M B A B cos ( 2 ϕ ) 2 ϕ A B 2 ϕ MM A B M MA MB A B cos(2ϕ) 2ϕ A B 2ϕ posiblemente se puede doblar por la transformación .M
Los cálculos amenazan con ser desordenados. Algunas opciones inteligentes de notación, junto con algunas simplificaciones preliminares, reducen el esfuerzo. Resulta que la solución en dos dimensiones revela todo lo que necesitamos saber. Este es un problema manejable, que depende solo de una variable real , que se resuelve fácilmente utilizando técnicas de cálculo. Un argumento geométrico simple extiende esta solución a cualquier cantidad de dimensiones .nθ n
Preliminares matemáticos
Por definición, el coseno del ángulo entre dos vectores y se obtiene normalizándolos a la unidad de longitud y tomando su producto. Así,BA B
y, escribiendo , el coseno del ángulo entre las imágenes de y bajo la transformación esA B MΣ=M′M A B M
Observe que solo importa en el análisis,Σ no sí. Por lo tanto, podemos explotar la Descomposición de valor singular (SVD) de para simplificar el problema. Recuerde que esto expresa como un producto (de derecha a izquierda) de una matriz ortogonal , una matriz diagonal y otra matriz ortogonal :M M V ′ D UMETRO METRO METRO V′ re U
En otras palabras, existe una base de vectores privilegiados (las columnas de ) sobre los cuales actúa reescalando cada por separado mediante la entrada diagonal de (que llamaré ) y luego aplicando una rotación (o antirrotación) al resultado. Esa rotación final no cambiará ninguna longitud o ángulo y, por lo tanto, no debería afectar a . Puedes ver esto formalmente con el cálculo V M e i i th D d i U Σmi1, ... , enorte V METRO miyo yoth re reyo U Σ
En consecuencia, para estudiar podemos reemplazar libremente por cualquier otra matriz que produzca los mismos valores en . Al ordenar para que disminuya de tamaño (y suponiendo que no sea idénticamente cero), una buena elección de esM ( 1 ) e i d i M MΣ METRO ( 1 ) miyo reyo METRO METRO
Los elementos diagonales de son( 1 / d1) D
Específicamente, el efecto de (ya sea en su forma original o modificada) en todos los ángulos está completamente determinado por el hecho de queMETRO
Análisis de un caso especial.
Deje . Debido a que cambiar las longitudes de los vectores no cambia el ángulo entre ellos, podemos suponer que y son vectores unitarios. En el plano, todos estos vectores pueden designarse por el ángulo que forman con , lo que nos permite escribirA B e 1n = 2 UNA si mi1
Por lo tanto
(Vea la figura a continuación).
Aplicar es simple: corrige las primeras coordenadas de y y multiplica sus segundas coordenadas por . Por lo tanto, el ángulo de a esA B λ 2 M A M BM A B λ2 MA MB
Como es una función continua, esta diferencia de ángulos es una función continua de . De hecho, es diferenciable. Esto nos permite encontrar los ángulos extremos inspeccionando los ceros de la derivada . Esa derivada es fácil de calcular: es una relación de funciones trigonométricas. Los ceros solo pueden aparecer entre los ceros de su numerador, así que no nos molestemos en calcular el denominador. Obtenemosθ f ′ ( θ )M θ f′(θ)
Los casos especiales de , y se entienden fácilmente: corresponden a las situaciones en las que es de rango reducido (y así aplasta todos los vectores en una línea); donde es un múltiplo de la matriz de identidad; y donde y son paralelos (de donde el ángulo entre ellos no puede cambiar, independientemente de ). El caso está excluido por la condición .λ 2 = 1λ2=0 λ2=1 M M A B θ λ 2 = - 1 λ 2 ≥ 0ϕ=0 M M A B θ λ2=−1 λ2≥0
Además de estos casos especiales, los ceros ocurren solo donde : es decir, o . Esto significa que la línea determinada por divide el ángulo . Ahora sabemos que los valores extremos del ángulo entre y deben estar entre los valores de , así que calculemos:sin(2θ)=0 θ = π / 2 e 1 A B M A M B f ( θ )θ=0 θ=π/2 e1 AB MA MB f(θ)
Los cosenos correspondientes son
y
A menudo es suficiente entender cómo distorsiona los ángulos rectos. En este caso, , lo que lleva a , que puede insertar en las fórmulas anteriores.2 ϕ = π / 2 tan ( ϕ ) = cot ( ϕ ) = 1METRO 2 ϕ=π/ 2 tan( ϕ )=cot( ϕ ) = 1
Tenga en cuenta que cuanto menor sea , más extremos serán estos ángulos y mayor será la distorsión.λ2
Esta figura muestra cuatro configuraciones de los vectores y separadas por un ángulo de . El círculo unitario y su imagen elíptica debajo de están sombreados como referencia (con la acción de reescalada uniformemente para hacer ). Las figura encabezamientos indican el valor de , el punto medio de y . Lo más parecido que puede llegar a ser y cuando se transforma por es una configuración como la de la izquierda conB 2 ϕ = π / 3 M M λ 1 = 1 θUNA si 2 ϕ=π/ 3 METRO METRO λ1= 1 θ B A B M θ = 0 θ = π / 2UNA si UNA si METRO θ=0 . Lo más alejado que pueden estar es una configuración como la de la derecha con . Se muestran dos posibilidades intermedias.θ=π/2
Solución para todas las dimensiones.
Hemos visto cómo actúa expandiendo cada dimensión por un factor . Esto distorsionará la unidad de esfera en un elipsoide. El determina sus ejes principales. Los son las distancias desde el origen, a lo largo de estos ejes, al elipsoide. En consecuencia, el más pequeño, , es la distancia más corta (en cualquier dirección) desde el origen al elipsoide y el más grande, , es la distancia más lejana (en cualquier dirección) desde el origen al elipsoide.i λ i {M i λi e i λ i λ n λ 1{A|A′A=1} ei λi λn λ1
En dimensiones superiores , y son parte de un subespacio bidimensional. asigna el círculo unitario en este subespacio en la intersección del elipsoide con un plano que contiene y . Esta intersección, al ser una distorsión lineal de un círculo, es una elipse. Obviamente, la distancia más lejana a esta elipse no es más que y la distancia más corta no es menos que .n>2 B M M A M B λ 1 = 1 λ nA B M MA MB λ1=1 λn
Como observamos al final de la sección anterior, la posibilidad más extrema es cuando y están situados en un plano que contiene dos de para los cuales la relación de correspondiente es lo más pequeña posible. Esto sucederá en el plano . Ya tenemos la solución para ese caso.B e i λ i e 1 , e nA B ei λi e1,en
Conclusiones
Los extremos de similitud de coseno alcanzables aplicando a dos vectores que tienen similitud de coseno están dados por y . Se logran situando y en ángulos iguales a una dirección en la que alarga al máximo cualquier vector (como la dirección ) y separándolos en una dirección en la que alarga mínimamente cualquier vector ( como la dirección ).cos ( 2 ϕM ( 2 ) ( 3 )cos(2ϕ) (2) (3) B Σ = M ′ M e 1 Σ e nA B Σ=M′M e1 Σ en
Estos extremos se pueden calcular en términos de la SVD de .M
fuente
Probablemente le interese:
Puede diagonalizar (o como lo llaman, PCA), lo que le dice que la similitud de bajo la transformación comporta proyectando en sus componentes principales, y posteriormente calculando similitud en este nuevo espacio. Para desarrollar esto un poco más, dejemos que los componentes principales sean con valores propios . Entonces A , B M A , B u i λ iMTM=UΣUT A,B M A,B ui λi
que te da:
Observe que hay una escala aquí: los se . Cuando son vectores unitarios y si cada , entonces corresponde a una rotación, y obtienes: , que es equivalente a decir que los productos internos son invariantes bajo rotaciones. En general, el ángulo permanece igual cuando es una transformación conforme, que en este caso requiere que sea invertible y que la descomposición polar de satisfaga con , es decir, . A , B λ i = 1 M sim ( M A , M B ) = sim ( A , B ) M M M M = O P P = a I M T M = a 2 Iλi A,B λi=1 M sim(MA,MB)=sim(A,B) M M M M=OP P=aI MTM=a2I
fuente