Leí que "la distancia euclidiana no es una buena distancia en grandes dimensiones". Supongo que esta afirmación tiene algo que ver con la maldición de la dimensionalidad, pero ¿qué es exactamente? Además, ¿qué son las "altas dimensiones"? He estado aplicando agrupamiento jerárquico usando la distancia euclidiana con 100 características. ¿Hasta cuántas características es 'seguro' usar esta métrica?
241
Respuestas:
Un gran resumen de resultados no intuitivos en dimensiones superiores proviene de " Algunas cosas útiles que debe saber sobre el aprendizaje automático " de Pedro Domingos en la Universidad de Washington:
El artículo también está lleno de muchas perlas adicionales de sabiduría para el aprendizaje automático.
Otra aplicación, más allá del aprendizaje automático, es la búsqueda de vecinos más cercanos: dada una observación de interés, encuentre sus vecinos más cercanos (en el sentido de que estos son los puntos con la menor distancia desde el punto de consulta). Pero en las dimensiones altas, surge un fenómeno curioso: la relación entre los puntos más cercanos y más lejanos se aproxima a 1, es decir, los puntos esencialmente se vuelven uniformemente distantes entre sí. Este fenómeno se puede observar para una amplia variedad de métricas de distancia, pero es más pronunciado para la métrica euclidiana que, por ejemplo, la métrica de distancia de Manhattan. La premisa de la búsqueda del vecino más cercano es que los puntos "más cercanos" son más relevantes que los puntos "más lejanos", pero si todos los puntos están esencialmente uniformemente distantes entre sí, la distinción no tiene sentido.
De Charu C. Aggarwal, Alexander Hinneburg, Daniel A. Keim, " Sobre el comportamiento sorprendente de las métricas a distancia en el espacio de alta dimensión ":
Los autores del artículo "Comportamiento sorprendente" proponen usar las normas con k < 1 . Producen algunos resultados que demuestran que estas "normas fraccionales" exhiben la propiedad de aumentar el contraste entre los puntos más lejanos y más cercanos. Esto puede ser útil en algunos contextos, sin embargo, hay una advertencia: estas "normas fraccionales" no son métricas de distancia adecuadas porque violan la desigualdad del triángulo. Si la desigualdad del triángulo es una cualidad importante para tener en su investigación, entonces las métricas fraccionarias no serán tremendamente útiles.Lk k < 1
fuente
La noción de distancia euclidiana, que funciona bien en los mundos bidimensionales y tridimensionales estudiados por Euclides, tiene algunas propiedades en dimensiones superiores que son contrarias a nuestra (quizás solo mi ) intuición geométrica, que también es una extrapolación de dos y tres dimensiones.
Considere un cuadrado de con vértices en ( ± 2 , ± 2 ) . Dibuje cuatro círculos de radio unitario centrados en ( ± 1 , ± 1 ) . Estos "llenan" el cuadrado, con cada círculo tocando los lados del cuadrado en dos puntos, y cada círculo toca sus dos vecinos. Por ejemplo, el círculo centrado en ( 1 , 1 ) toca los lados del cuadrado en ( 2 , 1 ) y ( 1 , 2 )4 × 4 ( ± 2 , ± 2 ) ( ± 1 , ± 1 ) ( 1 , 1 ) ( 2 , 1 ) ( 1 , 2 ) , y sus círculos vecinos en y ( 0 , 1 ) . Luego, dibuja un pequeño círculo centrado en el origen que toque los cuatro círculos. Dado que el segmento de línea cuyos puntos finales son los centros de dos círculos osculadores pasa a través del punto de osculación, se verifica fácilmente que el círculo pequeño tiene un radio r 2 = √( 1 , 0 ) ( 0 , 1 )
y que toca toca los cuatro círculos más grandes en(±r2/ √r2=2–√−1 . Tenga en cuenta que el círculo pequeño está "completamente rodeado" por los cuatro círculos más grandes y, por lo tanto, también está completamente dentro del cuadrado. Tenga en cuenta también que el punto(r2,0) seencuentra en el círculo pequeño. Observe también que desde el origen, uno no puede "ver" el punto(2,0,0)en el borde del cuadrado porque la línea de visión pasa a través del punto de osculación(1,0,0)de los dos círculos centrados en(1,1)y(1,(±r2/2–√,±r2/2–√) (r2,0) (2,0,0) (1,0,0) (1,1) . Lo mismo ocurre con las líneas de visión a los otros puntos donde los ejes pasan a través de los bordes del cuadrado.(1,−1)
Luego, considere un cubo con vértices en ( ± 2 , ± 2 , ± 2 ) . Lo llenamos con 8 esferas de radio unidad osculadoras centradas en ( ± 1 , ± 1 , ± 1 ) , y luego colocamos una esfera osculadora más pequeña centrada en el origen. Tenga en cuenta que la esfera pequeña tiene radio r 3 = √4×4×4 (±2,±2,±2) 8 (±1,±1,±1)
y el punto(r3,0,0) seencuentra en la superficie de la esfera pequeña. Pero observe también que en tres dimensiones, unopuede"ver" el punto
(2,0,0)desde el origen; no hay esferas más grandes que bloqueen la vista como sucede en dos dimensiones. Estas líneas claras de visión desde el origen hasta los puntos donde los ejes pasan a través de la superficie del cubo también se producen en todas las dimensiones más grandes.r3=3–√−1<1 ( r3, 0 , 0 ) ( 2 , 0 , 0 )
Generalizando, podemos considerar un hipercubo -dimensional de lado 4 y llenarlo con 2 n osculadores hiperesferas unidad de radio con centro en ( ± 1 , ± 1 , ... , ± 1 ) y luego poner un "más pequeño" esfera osculating de radio r n = √norte 4 4 2norte ( ± 1 , ± 1 , … , ± 1 ) en el origen. El punto(rn,0,0,...,0) se
encuentra en esta esfera "más pequeña". Pero, observe de(1)que cuandon=4,rn=1y, por lo tanto, la esfera "más pequeña" tiene un radio unitario y, por lo tanto, realmente no merece el sobrenombre de "más pequeño" paran≥4
Mi respuesta a la pregunta del OP "Además, ¿qué es 'altas dimensiones'?" es .n ≥ 9
fuente
Es una cuestión de señal a ruido . La distancia euclidiana, debido a los términos al cuadrado, es particularmente sensible al ruido; pero incluso la distancia de Manhattan y las distancias "fraccionarias" (no métricas) sufren.
Los estudios en este artículo me parecieron muy esclarecedores:
Revisa las observaciones realizadas en, por ejemplo, Sobre el comportamiento sorprendente de las métricas de distancia en el espacio de alta dimensión por Aggarwal, Hinneburg y Keim mencionados por @Pat. Pero también muestra cómo los experimentos sintéticos son engañosos y que, de hecho , los datos de alta dimensión pueden volverse más fáciles . Si tiene mucha señal (redundante) y las nuevas dimensiones agregan poco ruido.
Entonces, al final, aún depende de sus datos. Si tiene muchos atributos inútiles, la distancia euclidiana se volverá inútil. Si pudiera incrustar fácilmente sus datos en un espacio de datos de baja dimensión, la distancia euclidiana también debería funcionar en el espacio dimensional completo. En particular, para datos dispersos , como los vectores TF del texto, este parece ser el caso de que los datos tienen una dimensionalidad mucho menor de lo que sugiere el modelo de espacio vectorial.
Algunas personas creen que la distancia cosenoidal es mejor que Euclidiana en datos de alta dimensión. No lo creo: la distancia cosenoidal y la distancia euclidiana están estrechamente relacionadas; así que debemos esperar que sufran los mismos problemas. Sin embargo, los datos textuales donde el coseno es popular generalmente son escasos , y el coseno es más rápido en los datos que son escasos, por lo que para los datos escasos, hay buenas razones para usar el coseno; y debido a que los datos son escasos, la dimensionalidad intrínseca es mucho menor que la dimensión del espacio vectorial.
Vea también esta respuesta que le di a una pregunta anterior: https://stats.stackexchange.com/a/29647/7828
fuente
Probablemente, el mejor lugar para comenzar es leer Sobre el comportamiento sorprendente de las métricas de distancia en el espacio de alta dimensión de Aggarwal, Hinneburg y Keim. Actualmente hay un enlace que funciona aquí (pdf) , pero debería ser muy compatible con Google si se rompe. En resumen, a medida que aumenta el número de dimensiones, la distancia euclidiana relativa entre un punto en un conjunto y su vecino más cercano, y entre ese punto y su vecino más alejado, cambia de maneras no obvias. Si esto afectará o no sus resultados depende en gran medida de lo que está tratando de lograr y de cómo son sus datos.
fuente
La distancia euclidiana rara vez es una buena distancia para elegir en Machine Learning y esto se vuelve más obvio en las dimensiones superiores. Esto se debe a que la mayor parte del tiempo en el aprendizaje automático no se trata de un espacio métrico euclidiano, sino de un espacio métrico probabilístico y, por lo tanto, debe utilizar funciones de distancia teóricas probabilísticas y de información, por ejemplo, funciones basadas en entropía.
A los humanos les gusta el espacio euclidiano porque es fácil de conceptualizar, además es matemáticamente fácil debido a las propiedades de linealidad que significan que podemos aplicar álgebra lineal. Si definimos distancias en términos de, por ejemplo, Divergencia Kullback-Leibler, entonces es más difícil visualizar y trabajar matemáticamente.
fuente
Como analogía, imagine un círculo centrado en el origen. Los puntos se distribuyen de manera uniforme. Supongamos que un punto seleccionado al azar está en (x1, x2). La distancia euclidiana desde el origen es ((x1) ^ 2 + (x2) ^ 2) ^ 0.5
Ahora, imagine puntos distribuidos uniformemente sobre una esfera. Ese mismo punto (x1, x2) ahora será probablemente (x1, x2, x3). Dado que, en una distribución uniforme, solo unos pocos puntos tienen una de las coordenadas como cero, supondremos que [x3! = 0] para nuestro punto distribuido uniformemente seleccionado al azar. Por lo tanto, nuestro punto aleatorio es más probable (x1, x2, x3) y no (x1, x2, 0).
El efecto de esto es: cualquier punto aleatorio está ahora a una distancia de ((x1) ^ 2 + (x2) ^ 2 + (x3) ^ 2) ^ 0.5 desde el origen de la esfera tridimensional. Esta distancia es mayor que la de un punto aleatorio cerca del origen de un círculo 2D. Este problema empeora en las dimensiones superiores, por lo que elegimos métricas distintas de las dimensiones euclidianas para trabajar con dimensiones superiores.
EDITAR: Hay un dicho que recuerdo ahora: "La mayor parte de la masa de una naranja de mayor dimensión está en la piel, no en la pulpa", lo que significa que en las dimensiones superiores de manera uniforme los puntos distribuidos están más "cerca" (distancia euclidiana) del límite que el origen
Nota al margen: la distancia euclidiana no es demasiado malo para los problemas del mundo real debido a la 'bendición de la no uniformidad', que básicamente establece que para datos reales, sus datos probablemente NO se distribuirán de manera uniforme en el espacio dimensional superior, pero ocupará un pequeño subconjunto de clusters del espacio. Esto tiene sentido intuitivamente: si está midiendo 100 cantidades sobre humanos como altura, peso, etc., una distribución uniforme sobre el espacio de dimensión simplemente no tiene sentido, por ejemplo, una persona con (altura = 65 pulgadas, peso = 150 lbs, avg_calorie_intake = 4000) que simplemente no es posible en el mundo real.
fuente
Otra faceta de esta pregunta es esta:
Muy a menudo, las grandes dimensiones en los problemas (de aprendizaje automático / estadísticos) son el resultado de características demasiado limitadas.
Es decir, las dimensiones NO son independientes (o no están correlacionadas), pero las métricas euclidianas suponen (al menos) una falta de correlación y, por lo tanto, pueden no producir los mejores resultados
Entonces, para responder a su pregunta, el número de "altas dimensiones" está relacionado con cuántas características son interdependientes o redundantes o están demasiado restringidas
Además: es un teorema de Csiszar (et al.) Que las métricas euclidianas son candidatos "naturales" para la inferencia cuando las características son de ciertas formas
fuente
Este documento también puede ayudarlo "Medición de similitud de coseno-sqrt mejorada" visite https://journalofbigdata.springeropen.com/articles/10.1186/s40537-017-0083-6 Este documento explica por qué la distancia euclidiana no es una buena métrica en alta dimensión datos y cuál es el mejor reemplazo para la distancia euclidiana en datos de alta dimensión. La distancia euclidiana es la norma L2 y al disminuir el valor de k en la norma Lk podemos aliviar el problema de la distancia en los datos de alta dimensión. Puede encontrar las referencias en este documento también.
fuente