Sé que esta pregunta no está bien definida, pero algunos grupos tienden a ser elípticos o se encuentran en un espacio dimensional inferior, mientras que otros tienen formas no lineales (en ejemplos 2D o 3D).
¿Hay alguna medida de no linealidad (o "forma") de los grupos?
Tenga en cuenta que en el espacio 2D y 3D, no es un problema ver la forma de ningún grupo, pero en espacios de dimensiones superiores es un problema decir algo sobre la forma. En particular, ¿hay alguna medida de cuán convexo es el clúster?
Me inspiraron para esta pregunta muchas otras preguntas de agrupación en las que la gente habla sobre agrupaciones pero nadie puede verlas (en espacios de dimensiones superiores). Además, sé que hay algunas medidas de no linealidad para las curvas 2D.
fuente
Respuestas:
Me gustan los modelos de mezcla gaussiana (GMM).
Una de sus características es que, en el dominio probit , actúan como interpoladores por partes. Una implicación de esto es que pueden actuar como una base de reemplazo, un aproximador universal. Esto significa que para las distribuciones no gaussianas, como las lognormales, las weibull o las no analíticas más locas, siempre que se cumplan algunos criterios, el GMM puede aproximar la distribución.
Entonces, si conoce los parámetros de la aproximación óptima de AICc o BIC utilizando GMM, puede proyectarlos en dimensiones más pequeñas. Puede rotarlo y observar los ejes principales de los componentes del GMM aproximado.
La consecuencia sería una forma informativa y visualmente accesible de ver las partes más importantes de los datos de dimensiones superiores utilizando nuestra percepción visual de visualización en 3D.
EDITAR: (claro, whuber)
Hay varias formas de ver la forma.
EDITAR:
¿Qué significa forma? Dicen que la especificidad es el alma de toda buena comunicación. ¿Qué quieres decir con "medida"?
Ideas sobre lo que puede significar:
La mayoría de las "varias formas" son alguna variación de estas.
fuente
Esto puede ser bastante simplista, pero puede obtener una idea al hacer un análisis de valor propio en cada uno de sus grupos.
Lo que intentaría es tomar todos los puntos asignados a un clúster y ajustarlos con un gaussiano multivariado. Luego puede calcular los valores propios de la matriz de covarianza ajustada y trazarlos. Hay muchas maneras de hacer esto ; quizás el más conocido y ampliamente utilizado se llama análisis de componentes principales o PCA .
Una vez que tenga los valores propios (también llamados espectro), puede examinar sus tamaños relativos para determinar qué tan "extendido" está el grupo en ciertas dimensiones. Cuanto menos uniforme es el espectro, más "en forma de cigarro" es el grupo, y cuanto más uniforme es el espectro, más esférico es el grupo. Incluso podría definir algún tipo de métrica para indicar cuán no uniformes son los valores propios (¿entropía espectral?); ver http://en.wikipedia.org/wiki/Spectral_flatness .
Como beneficio adicional, puede examinar los componentes principales (los vectores propios asociados con grandes valores propios) para ver "dónde" apuntan los grupos "en forma de cigarro" en su espacio de datos.
Naturalmente, esta es una aproximación cruda para un grupo arbitrario, ya que solo modela los puntos en el grupo como un solo elipsoide. Pero, como dije, podría darte una idea.
fuente
Los algoritmos de agrupación de correlación como 4C, ERiC o LMCLUS generalmente consideran que los grupos son múltiples lineales. Es decir, hiperplanos k-dimensionales en un espacio d-dimensional. Bueno, para 4C y ERiC solo localmente lineales, por lo que de hecho pueden ser no convexos. Pero todavía intentan detectar grupos de una dimensionalidad local reducida.
Encontrar grupos de formas arbitrarias en datos de alta dimensión es un problema bastante difícil. En particular, debido a la maldición de la dimensionalidad que permite que el espacio de búsqueda explote y al mismo tiempo también requiere que tenga datos de entrada mucho más grandes si aún desea resultados significativos . Demasiados algoritmos no prestan atención a si lo que encuentran sigue siendo significativo o podría ser aleatorio.
De hecho, creo que hay otros problemas que resolver antes de pensar en la convexidad de la no convexidad de los grupos complejos en el espacio de alta dimensión.
También eche un vistazo a la complejidad de calcular el casco convexo en dimensiones más altas ...
Además, ¿tiene un verdadero caso de uso para eso más allá de la curiosidad?
fuente
Si su dimensionalidad no es muy superior a 2 o 3, entonces podría ser posible proyectar el grupo de interés en el espacio 2D varias veces y visualizar los resultados o utilizar su medición 2D de no linealidad. Pensé en esto debido al método Random Projections http://users.ics.aalto.fi/ella/publications/randproj_kdd.pdf .
Las proyecciones aleatorias se pueden usar para reducir la dimensionalidad para construir un índice. La teoría es que si dos puntos están cercanos en dimensiones D y usted toma una proyección aleatoria en dimensiones d con d
Para concretar, puede pensar en proyectar un globo sobre una superficie plana. No importa cómo lo proyectes, Nueva York y Nueva Jersey van a estar juntas, pero rara vez presionarás a Nueva York y Londres.
No sé si esto puede ayudarlo rigurosamente, pero podría ser una forma rápida de visualizar los grupos.
fuente