¿Cómo seleccionar un método de agrupación? ¿Cómo validar una solución de clúster (para garantizar la elección del método)?

Uno de los mayores problemas con el análisis de conglomerados es que es posible que tengamos que derivar conclusiones diferentes cuando nos basamos en diferentes métodos de agrupación utilizados (incluidos diferentes métodos de vinculación en la agrupación jerárquica).

Me gustaría saber su opinión sobre esto: qué método seleccionará y cómo. Uno podría decir "el mejor método de agrupamiento es el que le da la respuesta correcta"; pero puedo responder en respuesta que se supone que el análisis de conglomerados es una técnica no supervisada , entonces, ¿cómo sé qué método o enlace es la respuesta correcta?

En general: ¿es un clúster solo lo suficientemente robusto como para confiar? ¿O necesitamos un segundo método y obtener un resultado compartido basado en ambos?

Mi pregunta no es solo sobre las posibles formas de validar / evaluar el rendimiento de la agrupación, sino que es más amplia: ¿sobre qué base seleccionamos / preferimos un método / algoritmo de agrupación sobre otro? Además, ¿hay advertencias comunes de que debemos mirar alrededor cuando seleccionamos un método para agrupar nuestros datos?

Sé que es una pregunta muy general y muy difícil de responder. Solo me gustaría saber si tiene algún comentario, consejo o sugerencia para que yo pueda obtener más información al respecto.

clustering validation model-evaluation hierarchical-clustering Aprendiz
fuente

Verifique también esta pregunta similar.

ttnphns

Y este uno.

ttnphns

Algunos enlaces específicamente sobre validación interna y externa: esto . Y esto . Y que . Y que . Y que . Y esto . Y allá . Y busca más.

ttnphns

Respuestas:

A menudo dicen que no existe otra técnica analítica tan fuerte como la del tipo "como siembras segarás", como lo es el análisis de conglomerados.

Puedo imaginar de un dimensiones numéricas o aspectos de la "corrección" de este o aquel método de agrupamiento :

Metáfora de clústeres . "Yo prefiero este método, ya que constituye agrupaciones tales (o como una ida) que se reúne con mi concepto de un cluster en mi proyecto en particular" . Cada algoritmo de agrupamiento o subalgoritmo / método implica su estructura / construcción / forma correspondiente de un grupo. En lo que se refiere a los métodos jerárquicos, he observado esto en uno de los puntos aquí y también aquí. Es decir, algunos métodos dan grupos que son prototípicamente "tipos", otros dan "círculos [por interés]", aún otras "plataformas [políticas]", "clases", "cadenas", etc. Seleccione el método que la metáfora del grupo le convenga. Por ejemplo, si veo mis segmentos de clientes como tipos: formas más o menos esféricas con compactación (es) en el medio, elegiré claramente el método de enlace de Ward o K-means, pero nunca el método de enlace único. Si necesito un punto focal representativo, podría usar el método medoide. Si necesito seleccionar puntos para que sean representantes centrales y periféricos, podría usar el enfoque DBSCAN.
Supuestos de datos / métodos . "Preferí este método porque mi naturaleza o formato de datos lo predisponen" . Este punto importante y vasto también se menciona en mi enlace anterior. Diferentes algoritmos / métodos pueden requerir diferentes tipos de datos para ellos o diferentes medidas de proximidad para aplicar a los datos, y viceversa, diferentes datos pueden requerir diferentes métodos. Existen métodos para cuantitativos y métodos para datos cualitativos. La mezcla de características cuantitativas + cualitativas reduce drásticamente el alcance de elección entre los métodos. Ward's o K-meansse basan, explícita o implícitamente, en la medida de proximidad de distancia euclidiana (al cuadrado) solamente y no en una medida arbitraria. Los datos binarios pueden requerir medidas especiales de similitud que a su vez cuestionarán fuertemente el uso de algunos métodos, por ejemplo Ward's o K-means, para ellos. Big data puede necesitar algoritmos especiales o implementaciones especiales.
$^1$ aproximadamente), por lo que la alta validez puede deberse en parte a la peculiaridad aleatoria del conjunto de datos dado; tener un conjunto de datos de prueba siempre es beneficioso.]
Validez externa . "Preferí este método porque me dio grupos que difieren según sus antecedentes o grupos que coinciden con los verdaderos que conozco" . Si una partición de agrupación presenta agrupaciones que son claramente diferentes en algunas características importantes de fondo (es decir, no participaron en el análisis de agrupación), entonces es un activo para ese método que produjo la partición. Use cualquier análisis que aplique para verificar la diferencia; También existen varios criterios útiles de agrupamiento externo(Rand, medida F, etc., etc.) Otra variante del caso de validación externa es cuando de alguna manera conoce los verdaderos clústeres en sus datos (conozca la "verdad fundamental"), como cuando generó los clústeres usted mismo. Entonces, la precisión de su método de agrupación es capaz de descubrir los clústeres reales.
Validez cruzada . "Preferí este método porque me da grupos muy similares en muestras equivalentes de datos o se extrapola bien en esas muestras" . Existen varios enfoques y sus híbridos, algunos más factibles con algunos métodos de agrupación, mientras que otros con otros métodos. Dos enfoques principales son el control de estabilidad y la generalización.comprobar. Comprobando la estabilidad de un método de agrupamiento, uno divide o remuestrea aleatoriamente los datos en conjuntos parcialmente entrecruzados o totalmente disjuntos y realiza el agrupamiento en cada uno; luego iguala y compara las soluciones con algunas características emergentes del clúster (por ejemplo, la ubicación de tendencia central de un clúster) si es estable en todos los conjuntos. La verificación de la posibilidad de generalización implica agrupar en un conjunto de trenes y luego usar su característica o regla de agrupamiento emergente para asignar objetos de un conjunto de prueba, además de también agrupar en el conjunto de prueba. Los resultados de la asignación y la pertenencia al clúster del resultado de agrupación de los objetos del conjunto de pruebas se comparan entonces.
Interpretación . "Preferí este método porque me dio grupos que, explicaron, son muy persuasivos de que haya significado en el mundo" . No es estadístico, es su validación psicológica. Cuán significativos son los resultados para usted, el dominio y, posiblemente, la audiencia / cliente. Elija el método que ofrezca los resultados picantes más interpretables.
Gregaria . Algunas investigaciones regularmente y todas las investigaciones ocasionalmente dirían "Preferí este método porque con mis datos dio resultados similares con otros métodos entre todos los que probé" . Esta es una estrategia heurística pero cuestionable que supone que existen datos bastante universales o un método bastante universal.

Los puntos 1 y 2 son teóricos y preceden la obtención del resultado; exclusiva depender de estos puntos es la soberbia, la estrategia exploratoria seguro de sí mismo. Los puntos 3, 4 y 5 son empíricos y seguir el resultado; exclusiva depender de estos puntos es el inquieto, try-toda-la estrategia exploratoria. El punto 6 es creativo, lo que significa que niega cualquier resultado para intentar reajustarlo. El punto 7 es leal mauvaise foi.

Los puntos 3 a 7 también pueden ser jueces en su selección del "mejor" número de agrupaciones .

$^1$

ttnphns
fuente

Realmente me gustan las medidas de validez interna, como la suma de las variaciones dentro del clúster en K-means y el agrupamiento jerárquico Ward, así como los índices Dunn. Son independientes de los datos y, a veces, incluso independientes del algoritmo de agrupamiento, a pesar de que algunos de ellos solo tienen sentido con algoritmos específicos.

Douglas De Rizzo Meneghetti

@DouglasDeRizzoMeneghetti No estoy de acuerdo. No son independientes de los datos (hacen suposiciones muy fuertes sobre sus datos, como la linealidad y la equivalencia de los atributos) ni independientes del algoritmo de agrupamiento. De hecho, cada medida interna es un algoritmo de agrupamiento propio (puede optimizar para esta función, por lo general es demasiado costoso).

Anony-Mousse

Entiendo que algunas medidas de validez interna, como la suma de las variaciones dentro del grupo, tienen mejores resultados si las membresías del grupo se adquirieron a través de un método de agrupación que tiende a minimizar la suma de las variaciones dentro del grupo, y que una medida de validez como el Dunn los índices asumen que los buenos grupos son compactos y están muy separados (aunque las interpretaciones de "compacto" y "muy separados" se dejan abiertas a la interpretación), pero el hecho de que puede calcular estas medidas solo con los valores de las características y los miembros del grupo de Los elementos los hacen bastante versátiles.

Douglas De Rizzo Meneghetti

En su mayoría hay criterios de bandera roja . Propiedades de los datos que le indican que un enfoque determinado fallará con seguridad.

Si no tiene idea de lo que significan sus datos , deje de analizarlos. solo estás adivinando animales en las nubes.
si los atributos varían en escala y son no lineales o sesgados. Esto puede arruinar su análisis a menos que tenga una muy buena idea de la normalización adecuada. Deténgase y aprenda a comprender sus funciones, es demasiado pronto para agrupar.
si cada atributo es equivalente (misma escala) y lineal, y desea cuantificar su conjunto de datos (y el error de mínimos cuadrados tiene un significado para sus datos), entonces vale la pena probar k-means. Si sus atributos son de diferente tipo y escala, el resultado no está bien definido. Contraejemplo: edad e ingresos. El ingreso es muy sesgado y no x years = y dollartiene sentido.
Si tiene una idea muy clara de cómo cuantificar la similitud o la distancia (de manera significativa ; la capacidad de calcular un número no es suficiente), entonces el agrupamiento jerárquico y DBSCAN son una buena opción. Si no tienes idea de cómo cuantificar la similitud, primero resuelve ese problema.

Verá que el problema más común es que las personas intentan volcar sus datos sin procesar en clústeres, cuando primero necesitan comprenderlos y normalizarlos, y descubrir similitudes.

Ejemplos:

Píxeles de una imagen en el espacio RGB. Los mínimos cuadrados tienen algún sentido y todos los atributos son comparables: k-means es una buena opción.
Datos geográficos: mínimos cuadrados no es muy apropiado. Habrá valores atípicos. Pero la distancia es muy significativa. Use DBSCAN si tiene mucho ruido, o HAC (agrupamiento jerárquico aglomerativo) si tiene datos muy limpios.
Especies observadas en diferentes hábitats. Los mínimos cuadrados son dudosos, pero, por ejemplo, la similitud de Jaccard es significativa. Probablemente solo tenga algunas observaciones y ningún hábitat "falso": use HAC.

Anony-Mousse
fuente

+1. Solo te ruego que encuentres otra expresión en lugar de stop criteria. Porque, como sabe, "reglas de detención" o "criterios de detención" es sinónimo de "criterios de agrupación interna" en el dominio de la agrupación jerárquica. Entonces, es un término preocupado. Pero te refieres a estas palabras en un sentido diferente en la respuesta, y esto puede confundir al lector.

ttnphns

¿Qué tal "criterios de bandera roja"? Deteniendo el umbral para HAC, veo su punto.

Anony-Mousse

Grande para mí, buena opción.

ttnphns

En pts 2,3 dices (non)linear attributes. ¿Qué quieres decir? ¿De qué manera un "lineal" atributo? o usted está hablando de lineales relaciones , es decir, elipsoidales (y no curvada) formas de racimos?

ttnphns

Datos con, por ejemplo, una distribución exponencial.

Anony-Mousse

No creo que haya una buena forma formal de hacer esto; Creo que las buenas soluciones son las que tienen sentido, sustantivamente.

Por supuesto, puede intentar dividir los datos y agruparlos varias veces y así, pero aún queda la cuestión de cuál es útil.

Peter Flom - Restablece a Monica
fuente

Creo que el término tiene sentido no se puede enfatizar lo suficiente. Ese es también el punto central de mi respuesta: primero debe dar sentido a sus datos.

Anony-Mousse

@ Anony-Mousse, es una exageración de tu lado. Apuesto a que las personas que no saben cómo u olvidan "dar sentido" a sus datos apenas visitan este sitio y no hacen preguntas tan buenas como la que se hace aquí.

ttnphns

@ttnphns No sé con qué frecuencia esas personas visitan este sitio, y ciertamente no hacen esas preguntas. Pero mucha gente espera que el análisis de clúster funcione como una función de Excel. Seleccione los datos, haga clic en "clúster" y salgan los segmentos mágicos de clientes. Que nunca parece funcionar mucho mejor que al azar. Y, por ejemplo, este usuario no pudo entender sus datos: stats.stackexchange.com/q/195521/7828

Anony-Mousse