o métricas para la agrupación?

14

¿Alguien usa las métricas o para la agrupación, en lugar de ? Aggarwal et al., Sobre el sorprendente comportamiento de las métricas de distancia en el espacio de alta dimensión, dijeron (en 2001) queL1L.5L2

L1 es consistentemente más preferible que la métrica de distancia euclidiana para aplicaciones de minería de datos de alta dimensiónL2

y afirmó que o pueden ser mejores todavía.L.5L.1

Las razones para usar o podrían ser teóricas o experimentales, por ejemplo, sensibilidad a valores atípicos / documentos de Kabán, o programas ejecutados en datos reales o sintéticos (reproducible, por favor). Un ejemplo o una imagen ayudaría a la intuición de mi laico.L1L.5

Esta pregunta es un seguimiento de la respuesta de Bob Durrant a Cuando-es-el-vecino-más-significativo-hoy . Como él dice, la elección de dependerá tanto de los datos como de la aplicación; no obstante, informes de experiencia real serían útiles.p


Notas agregadas el martes 7 de junio:

Me topé con "Análisis de datos estadísticos basado en la norma L1 y métodos relacionados", Dodge ed., 2002, 454p, isbn 3764369205 - docenas de documentos de conferencia.

¿Alguien puede analizar la concentración de distancia para las características exponenciales iid? Una razón para los exponenciales es que ; otro (no experto) es que es la distribución de entropía máxima 0; un tercero es que algunos conjuntos de datos reales, en particular SIFT, se ven más o menos exponenciales.|expexp|exp

denis
fuente
Es importante mencionar que Aggarwal et al. en ese artículo específico donde se busca el comportamiento de las normas en problemas como agrupamiento, vecino más cercano e indexación. Lp
deps_stats
¿Probablemente decir métricas para las secuencias en lugar de para las funciones? En mi opinión, si hay algún criterio de optimización, el problema podría resolverse optimizándolo. La regla general generalmente estará relacionada con la solución exacta de la misma. De todos modos, trate de pensar en las propiedades de la solución knn preferidas. Después de leer los artículos, probablemente podría decir algo más sobre el tema. lpLp
Dmitrij Celov
@deps_stats, sí, gracias; cambió el título y la primera línea. @Dmitrij, 1) sí little-l es estrictamente hablando correcto, pero big-L es común y comprensible. 2) sí, uno puede encontrar una p óptima para un problema dado, pero ¿cuál es su primera opción y por qué?
denis

Respuestas:

6

La clave aquí es entender la "maldición de la dimensionalidad" a la que hace referencia el artículo. De wikipedia: cuando el número de dimensiones es muy grande,

casi todo el espacio de alta dimensión está "muy lejos" del centro, o, para decirlo de otra manera, se puede decir que el espacio unitario de alta dimensión consiste casi completamente en las "esquinas" del hipercubo, casi sin "medio"

Como resultado, comienza a ser difícil pensar qué puntos están cerca de qué otros puntos, porque todos están más o menos igualmente separados. Este es el problema en el primer documento al que se vinculó.

El problema con la p alta es que enfatiza los valores más grandes: cinco cuadrados y cuatro cuadrados están separados por nueve unidades, pero uno al cuadrado y dos al cuadrado están separados por solo tres unidades. Entonces las dimensiones más grandes (cosas en las esquinas) dominan todo y pierdes el contraste. Entonces, esta inflación de grandes distancias es lo que desea evitar. Con una p fraccionaria, el énfasis está en las diferencias en las dimensiones más pequeñas, dimensiones que en realidad tienen valores intermedios, lo que le da más contraste.

David J. Harris
fuente
(+1) Entonces @David, en general, ¿hay algún criterio que describa la calidad del contraste?
Dmitrij Celov
Parece que el primer documento que vinculó sugiere la distancia máxima menos la distancia mínima. Sin embargo, podría haber mejores formas.
David J. Harris
L1L.5
1
@ Denis Gracias! Creo que el bit de las esquinas tiene más sentido si los datos están delimitados en casi todas las dimensiones. De todos modos, me temo que no tengo suficiente experiencia con el agrupamiento para tener buenas intuiciones sobre diferentes métricas para usted. Por molesto que sea, el mejor enfoque podría ser probar algunos y ver qué sucede
David J. Harris
1

Hay un documento que usa la métrica Lp con p entre 1 y 5 que quizás desee echar un vistazo:

Amorim, RC y Mirkin, B., Métrica de Minkowski, ponderación de características e inicialización de agrupamiento anómalo en agrupación de medias K, reconocimiento de patrones, vol. 45 (3), págs. 1061-1075, 2012

Descargar, https://www.researchgate.net/publication/232282003_Author 's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_initializing_in_K-Means_clustering / file / d912f508115a040b45.pdf

Homero Simpson
fuente
0

Rnu2uu2

Ashok
fuente
L2L1L.5