Algunas observaciones clásicas sobre distancias en datos de alta dimensión:
- K. Beyer, J. Goldstein, R. Ramakrishnan y U. Shaft, ICDT 1999: "¿Cuándo tienen sentido los vecinos más cercanos?"
- CC Aggarwal, A. Hinneburg y DA Keim, ICDT 2001: "Sobre el comportamiento sorprendente de las métricas a distancia en el espacio de alta dimensión"
Un par de investigaciones más recientes sobre esto, que involucra vecinos y centros más cercanos compartidos:
- ME Houle, H.-P. Kriegel, P. Kröger, E. Schubert y A. Zimek, SSDBM 2010: "¿Pueden las distancias de vecinos compartidos derrotar la maldición de la dimensionalidad?"
- T. Bernecker, ME Houle, H.-P. Kriegel, P. Kröger, M. Renz, E. Schubert y A. Zimek, SSTD 2011: "Clasificación de calidad de similitud en series de tiempo"
- N. Tomašev, M. Radovanović, D. Mladenić y M. Ivanović. Adv. KDDM 2011: "El papel de la centralidad en la agrupación de datos de alta dimensión"
- No recuerdo a los demás, busque "Hubness", esa fue su observación de alta dimensión
Estos son interesantes, ya que señalan algunos malentendidos populares sobre la maldición de la dimensionalidad. En esencia, muestran que los resultados teóricos, que suponen que los datos son id., Pueden no ser generalmente ciertos para los datos que tienen más de una distribución. La maldición conduce a problemas numéricos y a una pérdida de discriminación dentro de una sola distribución, a la vez que puede facilitar aún más la diferenciación de dos distribuciones que están bien separadas.
Algo de esto debería ser bastante obvio. Digamos que tienes objetos que sonUNAyo∼ N( 0 ; 1 ) iid en cada dimensión y otro conjunto de objetos que son siyo∼ N( 100 ; 1 )Iid en cada dimensión. La diferencia entre los objetos de dos conjuntos diferentes siempre será de magnitudes mayores que una distancia dentro de un conjunto único, y el problema será aún más fácil con el aumento de la dimensionalidad .
Recomiendo leer este trabajo de Houle et al., En gran parte porque muestra que al afirmar que "estos datos son de alta dimensión, y debido a la maldición de la dimensionalidad no se puede analizar", podría estar haciendo las cosas demasiado fáciles. Aún así, esa es una línea que se está utilizando en todo el lugar. "Nuestro algoritmo solo funciona para datos de baja dimensión, debido a la maldición de la dimensionalidad". "Nuestro índice solo funciona para hasta 10 dimensiones, debido a la maldición de la dimensionalidad". Yadda yadda yadda. Aparentemente, muchas de estas afirmaciones simplemente muestran que dichos autores no han entendido lo que sucede con alta dimensionalidad en sus datos y algoritmo (o que necesitaban una excusa). Houle y col. no resuelven completamente el rompecabezas (¿todavía? esto es bastante reciente), pero al menos reconsideran muchas de las declaraciones populares.
Después de todo, si la gran dimensionalidad fuera un gran problema, ¿cómo es que en la minería de texto la gente usa felizmente las dimensionalidades del orden de 10000-100000, mientras que en otros dominios la gente se da por vencida en solo 10 dimensiones?
En cuanto a la segunda parte de su pregunta: la similitud del coseno parece sufrir menos por la dimensionalidad . Aparte de eso, siempre que desee diferenciar diferentes distribuciones, controle la precisión numérica y no confíe en los umbrales elegidos a mano (ya que podría necesitar darlos con muchos dígitos significativos), clásicoLpags-Las normas aún deberían estar bien.
Sin embargo, el coseno también se ve afectado por la maldición de la dimensionalidad , como se discute en:
- M. Radovanović, A. Nanopoulos y M. Ivanović, SIGIR 2010. "Sobre la existencia de resultados obstinados en modelos de espacio vectorial".
También:
Robert J. Durrant, Ata Kabán: Cuándo es significativo el "vecino más cercano": un teorema inverso y sus implicaciones. J. Complejidad 25 (4): 385-397 (2009)
Ata Kabán: Sobre la concentración a distancia, conocimiento de ciertas técnicas de reducción de datos. Reconocimiento de patrones 44 (2): 265-277 (2011)
Ata Kabán: detección no paramétrica de distancias sin sentido en datos de alta dimensión. Estadísticas e informática 22 (2): 375-385 (2012)
fuente