Distancia métrica y maldición de dimensiones

En alguna parte leí una nota que si tienes muchos parámetros $(x_1, x_2, \ldots, x_n)$ e intenta encontrar una "métrica de similitud" entre estos vectores, puede tener una "maldición de la dimensionalidad". Creo que significó que la mayoría de los puntajes de similitud serán iguales y no le brindarán información útil. En otras palabras, casi todos los vectores asociados tendrán una puntuación de media distancia que no es útil para la categorización o agrupación, etc.

¿Sabes dónde puedo obtener más detalles sobre eso?

¿Hay métricas que sufren menos de este efecto?

distance similarities metric Gerenuk
fuente

Respuestas:

Algunas observaciones clásicas sobre distancias en datos de alta dimensión:

K. Beyer, J. Goldstein, R. Ramakrishnan y U. Shaft, ICDT 1999: "¿Cuándo tienen sentido los vecinos más cercanos?"
CC Aggarwal, A. Hinneburg y DA Keim, ICDT 2001: "Sobre el comportamiento sorprendente de las métricas a distancia en el espacio de alta dimensión"

Un par de investigaciones más recientes sobre esto, que involucra vecinos y centros más cercanos compartidos:

ME Houle, H.-P. Kriegel, P. Kröger, E. Schubert y A. Zimek, SSDBM 2010: "¿Pueden las distancias de vecinos compartidos derrotar la maldición de la dimensionalidad?"
T. Bernecker, ME Houle, H.-P. Kriegel, P. Kröger, M. Renz, E. Schubert y A. Zimek, SSTD 2011: "Clasificación de calidad de similitud en series de tiempo"
N. Tomašev, M. Radovanović, D. Mladenić y M. Ivanović. Adv. KDDM 2011: "El papel de la centralidad en la agrupación de datos de alta dimensión"
No recuerdo a los demás, busque "Hubness", esa fue su observación de alta dimensión

Estos son interesantes, ya que señalan algunos malentendidos populares sobre la maldición de la dimensionalidad. En esencia, muestran que los resultados teóricos, que suponen que los datos son id., Pueden no ser generalmente ciertos para los datos que tienen más de una distribución. La maldición conduce a problemas numéricos y a una pérdida de discriminación dentro de una sola distribución, a la vez que puede facilitar aún más la diferenciación de dos distribuciones que están bien separadas.

Algo de esto debería ser bastante obvio. Digamos que tienes objetos que son $A_i\sim \mathcal{N}(0;1)$ iid en cada dimensión y otro conjunto de objetos que son $B_i\sim \mathcal{N}(100;1)$ Iid en cada dimensión. La diferencia entre los objetos de dos conjuntos diferentes siempre será de magnitudes mayores que una distancia dentro de un conjunto único, y el problema será aún más fácil con el aumento de la dimensionalidad .

Recomiendo leer este trabajo de Houle et al., En gran parte porque muestra que al afirmar que "estos datos son de alta dimensión, y debido a la maldición de la dimensionalidad no se puede analizar", podría estar haciendo las cosas demasiado fáciles. Aún así, esa es una línea que se está utilizando en todo el lugar. "Nuestro algoritmo solo funciona para datos de baja dimensión, debido a la maldición de la dimensionalidad". "Nuestro índice solo funciona para hasta 10 dimensiones, debido a la maldición de la dimensionalidad". Yadda yadda yadda. Aparentemente, muchas de estas afirmaciones simplemente muestran que dichos autores no han entendido lo que sucede con alta dimensionalidad en sus datos y algoritmo (o que necesitaban una excusa). Houle y col. no resuelven completamente el rompecabezas (¿todavía? esto es bastante reciente), pero al menos reconsideran muchas de las declaraciones populares.

Después de todo, si la gran dimensionalidad fuera un gran problema, ¿cómo es que en la minería de texto la gente usa felizmente las dimensionalidades del orden de 10000-100000, mientras que en otros dominios la gente se da por vencida en solo 10 dimensiones?

En cuanto a la segunda parte de su pregunta: la similitud del coseno parece sufrir menos por la dimensionalidad . Aparte de eso, siempre que desee diferenciar diferentes distribuciones, controle la precisión numérica y no confíe en los umbrales elegidos a mano (ya que podría necesitar darlos con muchos dígitos significativos), clásico $L_p$ -Las normas aún deberían estar bien.

Sin embargo, el coseno también se ve afectado por la maldición de la dimensionalidad , como se discute en:

M. Radovanović, A. Nanopoulos y M. Ivanović, SIGIR 2010. "Sobre la existencia de resultados obstinados en modelos de espacio vectorial".

HA SALIDO - Anony-Mousse
fuente

Aggarwal CC, Hinneburg A., Keim, DA (2001), "Sobre el comportamiento sorprendente de las métricas a distancia en el espacio de alta dimensión"
Beyer K., Goldstein J., Ramakrishnan R., Shaft U. (1999), "¿Cuándo tienen sentido los vecinos más cercanos?", Procedimientos de la Conferencia del ICDE.

usuario603
fuente

Suena interesante :) Espero poder obtener una copia de estos. ¿Sabes si existen soluciones a este problema con las métricas ordinarias?

Gerenuk

(+1) esto se ve muy interesante.

Elvis

@Gerenuk: ¿qué quieres decir con métricas 'ordinarias'? Además, ambos documentos están disponibles. en línea, sin delegar, como

archivos PDF

Gracias. Creo que los encontré por nombre de título. Por métrica ordinaria (creo) quiero decir

L_{k}

$L_k$ normas Entonces, la pregunta es si hay algún buscador de similitud simple que haga un mejor trabajo que

L_{k}

$L_k$ normas

Gerenuk

Las normas fraccionales L_p solo ocultan el problema. Creo que el resultado tiende a algo así como la diferencia mínima de atributo, que para un gran número de dimensiones deja de tener sentido en la práctica. Solo resuelve el problema de los números cada vez más grandes. La reducción de dimensiones funciona en algunos casos, pero considere el caso cuando ya no lo lleve más lejos. ¿Entonces que? Además, la reducción de dimensiones es esencialmente "640k dimensiones deberían ser suficientes para cualquiera". El texto está comúnmente en el rango de 10 ^ 5. ¿Qué hay del video?

HA SALIDO - Anony-Mousse

También:

Robert J. Durrant, Ata Kabán: Cuándo es significativo el "vecino más cercano": un teorema inverso y sus implicaciones. J. Complejidad 25 (4): 385-397 (2009)
Ata Kabán: Sobre la concentración a distancia, conocimiento de ciertas técnicas de reducción de datos. Reconocimiento de patrones 44 (2): 265-277 (2011)
Ata Kabán: detección no paramétrica de distancias sin sentido en datos de alta dimensión. Estadísticas e informática 22 (2): 375-385 (2012)

axk
fuente