¿Alguien usa las métricas o para la agrupación, en lugar de ?
Aggarwal et al.,
Sobre el sorprendente comportamiento de las métricas de distancia en el espacio de alta dimensión,
dijeron (en 2001) que
es consistentemente más preferible que la métrica de distancia euclidiana para aplicaciones de minería de datos de alta dimensión
y afirmó que o pueden ser mejores todavía.
Las razones para usar o podrían ser teóricas o experimentales, por ejemplo, sensibilidad a valores atípicos / documentos de Kabán, o programas ejecutados en datos reales o sintéticos (reproducible, por favor). Un ejemplo o una imagen ayudaría a la intuición de mi laico.
Esta pregunta es un seguimiento de la respuesta de Bob Durrant a Cuando-es-el-vecino-más-significativo-hoy . Como él dice, la elección de dependerá tanto de los datos como de la aplicación; no obstante, informes de experiencia real serían útiles.
Notas agregadas el martes 7 de junio:
Me topé con "Análisis de datos estadísticos basado en la norma L1 y métodos relacionados", Dodge ed., 2002, 454p, isbn 3764369205 - docenas de documentos de conferencia.
¿Alguien puede analizar la concentración de distancia para las características exponenciales iid? Una razón para los exponenciales es que ; otro (no experto) es que es la distribución de entropía máxima 0; un tercero es que algunos conjuntos de datos reales, en particular SIFT, se ven más o menos exponenciales.
Respuestas:
La clave aquí es entender la "maldición de la dimensionalidad" a la que hace referencia el artículo. De wikipedia: cuando el número de dimensiones es muy grande,
Como resultado, comienza a ser difícil pensar qué puntos están cerca de qué otros puntos, porque todos están más o menos igualmente separados. Este es el problema en el primer documento al que se vinculó.
El problema con la p alta es que enfatiza los valores más grandes: cinco cuadrados y cuatro cuadrados están separados por nueve unidades, pero uno al cuadrado y dos al cuadrado están separados por solo tres unidades. Entonces las dimensiones más grandes (cosas en las esquinas) dominan todo y pierdes el contraste. Entonces, esta inflación de grandes distancias es lo que desea evitar. Con una p fraccionaria, el énfasis está en las diferencias en las dimensiones más pequeñas, dimensiones que en realidad tienen valores intermedios, lo que le da más contraste.
fuente
Hay un documento que usa la métrica Lp con p entre 1 y 5 que quizás desee echar un vistazo:
Amorim, RC y Mirkin, B., Métrica de Minkowski, ponderación de características e inicialización de agrupamiento anómalo en agrupación de medias K, reconocimiento de patrones, vol. 45 (3), págs. 1061-1075, 2012
Descargar, https://www.researchgate.net/publication/232282003_Author 's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_initializing_in_K-Means_clustering / file / d912f508115a040b45.pdf
fuente
fuente