¿Cómo sé que mi algoritmo de agrupación k-means está sufriendo la maldición de la dimensionalidad?

12

Creo que el título de esta pregunta lo dice todo.

Mathieu
fuente
3
Creo que tendrá que aclararnos qué quiere decir con un síntoma.
mdewey
Si "síntoma" es una versión de "prueba" de exención manual, entonces tal vez podría tomar submuestras de su conjunto de datos, tal vez el 66% del tamaño de la muestra, realizar su análisis (k significa, en su caso), y luego ver qué tan nervioso Los resultados son. Por ejemplo, podría ver con qué frecuencia se asignan observaciones particulares al mismo grupo. Por otra parte, puede que no valga la pena el esfuerzo. Si le preocupa la posibilidad de un problema de dimensionalidad, es probable que tenga uno. Puede considerar otros enfoques de agrupación que reducen un poco la dimensionalidad.
generic_user
@generic_user si ese comentario fuera una respuesta, lo consideraría como una respuesta aceptada :)
mathieu
1
Esta pregunta es lo suficientemente clara como para permanecer abierta, OMI.
gung - Restablece a Monica
1
Con frecuencia, te encuentras con problemas mucho más severos de k-means antes que la "maldición de la dimensionalidad". k-means puede funcionar en 128 datos dimensionales (p. ej., vectores de color SIFT) si los atributos son buenos. Hasta cierto punto, incluso puede funcionar en datos de texto de 10.000 dimensiones a veces. El modelo teórico de la maldición nunca es válido para datos reales. Los problemas más grandes son características incomparables, escasez e incapacidad para visualizar y verificar el resultado.
HA SALIDO - Anony-Mousse

Respuestas:

18

Es útil pensar en qué es La maldición de la dimensionalidad . Hay varios hilos muy buenos en CV que vale la pena leer. Aquí hay un lugar para comenzar: Explique "Maldición de dimensionalidad" a un niño .

Observo que está interesado en cómo se aplica esto a la agrupación de medios . Vale la pena tener en cuenta que significa es una estrategia de búsqueda para minimizar (solo) la distancia al cuadrado euclidiana. A la luz de eso, vale la pena pensar en cómo la distancia euclidiana se relaciona con la maldición de la dimensionalidad (ver: ¿Por qué la distancia euclidiana no es una buena métrica en grandes dimensiones? ). kkk

La respuesta breve de estos hilos es que el volumen (tamaño) del espacio aumenta a una velocidad increíble en relación con el número de dimensiones. Incluso dimensiones (que no parece ser muy 'dimensional' para mí) pueden traer la maldición. Si sus datos se distribuyeron de manera uniforme en todo ese espacio, todos los objetos se vuelven aproximadamente equidistantes entre sí. Sin embargo, como señala @ Anony-Mousse en su respuesta a esa pregunta, este fenómeno depende de cómo se ordenan los datos dentro del espacio; Si no son uniformes, no necesariamente tiene este problema. Esto lleva a la pregunta de si los datos de alta dimensión distribuidos uniformemente son muy comunes (ver: ¿Existe realmente la "maldición de la dimensionalidad" en los datos reales? ). 10

10kk

[0, 1][0, D]

kkCómo entender los inconvenientes de K-means ).

gung - Restablece a Monica
fuente
Resulta que ya hay una etiqueta para el aprendizaje múltiple (¡debería haber buscado primero!). Para resumir para aquellos que no saben, la idea es que, si bien los datos de alta dimensión tienden a ser escasos en términos de todo el espacio, pueden ser densos en alguna hiperesuperficie dentro de ese espacio.
GeoMatt22
+1 por la excelente respuesta. ¿Podría por favor elaborar un poco más sobre la parte de valores propios? Si la dimensionalidad efectiva es pequeña, ¿recomienda hacer PCA y conservar solo las primeras puntuaciones con valores propios altos?
DataD'oh
@ DataD'oh, esa es ciertamente una posibilidad, pero lo que digo es que no necesitas hacer eso. En efecto, los datos no son de alta dimensión (cuando solo los primeros vectores propios tienen valores propios altos), por lo que no necesariamente necesita hacer nada; la maldición de la dimensionalidad simplemente no se aplicará.
gung - Restablece a Monica
@gung He publicado una nueva pregunta . Espero que no sea demasiado trivial.
DataD'oh
7

Mi respuesta no está limitada a K significa, pero verifique si tenemos una maldición de dimensionalidad para cualquier método basado en la distancia. K-means se basa en una medida de distancia (por ejemplo, distancia euclidiana)

N0.5N(N1)

Si tenemos el problema de la maldición de la dimensionalidad, lo que verá es que estos valores están muy cerca uno del otro. Esto parece muy contrario a la intuición, porque significa que todos están cerca o lejos de todos y la medida de la distancia es básicamente inútil.


16xi=01xj=01(xixj)2dxidxjrunifrnorm

Aquí está la simulación para la dimensión de 1 a 500, las características son distribución uniforme de 0 a 1.

plot(0, type="n",xlim=c(0,0.5),ylim=c(0,50))
abline(v=1/6,lty=2,col=2)
grid()

n_data=1e3
for (p in c(1:5,10,15,20,25,50,100,250,500)){
    x=matrix(runif(n_data*p),ncol=p)
    all_dist=as.vector(dist(x))^2/p
    lines(density(all_dist))
}

ingrese la descripción de la imagen aquí

Haitao Du
fuente
1
P
ameba
1
Había votado por una demostración del fenómeno de contracción euclidiana en grandes dimensiones. Pero la respuesta no demuestra un sufrimiento de k-significa agrupamiento de la maldición. El sufrimiento implicaría que en grandes dimensiones los grupos razonablemente bien separados (y no datos aleatorios uniformes como el suyo) pueden no ser descubiertos tan exitosamente como en las bajas dimensiones. No tocaste este tema.
ttnphns
P
@ttnphns gracias por tu comentario y voto positivo. Veré si puedo agregar un párrafo para discutir el impacto en k significa.
Haitao Du