Agrupación de formalizaciones distintas de K-means para datos separables

11

Los datos del mundo real a veces tienen una cantidad natural de clústeres (intentar agruparlos en una cantidad de clústeres menor que un poco de magia k causará un aumento dramático del costo de la agrupación). Hoy asistí a una conferencia del Dr. Adam Meyerson y se refirió a ese tipo de datos como "datos separables".

¿Cuáles son algunas formalizaciones de agrupamiento, además de K-means, que podrían ser susceptibles de algoritmos de agrupamiento (aproximaciones o heurísticas) que explotarían la separabilidad natural en los datos?

Aleksandr Levchuk
fuente

Respuestas:

11

Un modelo reciente que intenta capturar esa noción es Balcan, Blum y Gupta '09. Proporcionan algoritmos para varios objetivos de agrupamiento cuando los datos satisfacen una cierta suposición: a saber, que si los datos son tales que cualquier aproximación para el objetivo de agrupamiento es ϵ -cerca del agrupamiento óptimo, entonces pueden proporcionar algoritmos eficientes para encontrar casi -conglomeración óptima, incluso para valores de c para los cuales encontrar la aproximación - c es NP-Hard. Esta es una suposición acerca de que los datos son de alguna manera "agradables" o "separables". Lipton tiene una buena publicación de blog sobre esto.cϵcc

αα

Estoy seguro de que hay trabajos anteriores y nociones relevantes anteriores, pero estos son algunos resultados teóricos recientes relacionados con su pregunta.

Lev Reyzin
fuente
8

Además de los trabajos de Ostrovsky et al , y el trabajo de Arthur y Vassilvitskii sobre el comportamiento de k-means, hay un cuerpo de trabajo teórico sobre Euclidean k-median y k-means que conducen a algoritmos de tiempo "lineales" para agrupamiento bajo Estas formulaciones. Lo interesante de estos últimos trabajos es que usan la separabilidad como herramienta en el análisis, pero no lo requieren en los datos.

Suresh Venkat
fuente