Uno de los mayores problemas con el análisis de conglomerados es que es posible que tengamos que derivar conclusiones diferentes cuando nos basamos en diferentes métodos de agrupación utilizados (incluidos diferentes métodos de vinculación en la agrupación jerárquica).
Me gustaría saber su opinión sobre esto: qué método seleccionará y cómo. Uno podría decir "el mejor método de agrupamiento es el que le da la respuesta correcta"; pero puedo responder en respuesta que se supone que el análisis de conglomerados es una técnica no supervisada , entonces, ¿cómo sé qué método o enlace es la respuesta correcta?
En general: ¿es un clúster solo lo suficientemente robusto como para confiar? ¿O necesitamos un segundo método y obtener un resultado compartido basado en ambos?
Mi pregunta no es solo sobre las posibles formas de validar / evaluar el rendimiento de la agrupación, sino que es más amplia: ¿sobre qué base seleccionamos / preferimos un método / algoritmo de agrupación sobre otro? Además, ¿hay advertencias comunes de que debemos mirar alrededor cuando seleccionamos un método para agrupar nuestros datos?
Sé que es una pregunta muy general y muy difícil de responder. Solo me gustaría saber si tiene algún comentario, consejo o sugerencia para que yo pueda obtener más información al respecto.
Respuestas:
A menudo dicen que no existe otra técnica analítica tan fuerte como la del tipo "como siembras segarás", como lo es el análisis de conglomerados.
Puedo imaginar de un dimensiones numéricas o aspectos de la "corrección" de este o aquel método de agrupamiento :
Metáfora de clústeres . "Yo prefiero este método, ya que constituye agrupaciones tales (o como una ida) que se reúne con mi concepto de un cluster en mi proyecto en particular" . Cada algoritmo de agrupamiento o subalgoritmo / método implica su estructura / construcción / forma correspondiente de un grupo. En lo que se refiere a los métodos jerárquicos, he observado esto en uno de los puntos aquí y también aquí. Es decir, algunos métodos dan grupos que son prototípicamente "tipos", otros dan "círculos [por interés]", aún otras "plataformas [políticas]", "clases", "cadenas", etc. Seleccione el método que la metáfora del grupo le convenga. Por ejemplo, si veo mis segmentos de clientes como tipos: formas más o menos esféricas con compactación (es) en el medio, elegiré claramente el método de enlace de Ward o K-means, pero nunca el método de enlace único. Si necesito un punto focal representativo, podría usar el método medoide. Si necesito seleccionar puntos para que sean representantes centrales y periféricos, podría usar el enfoque DBSCAN.
Supuestos de datos / métodos . "Preferí este método porque mi naturaleza o formato de datos lo predisponen" . Este punto importante y vasto también se menciona en mi enlace anterior. Diferentes algoritmos / métodos pueden requerir diferentes tipos de datos para ellos o diferentes medidas de proximidad para aplicar a los datos, y viceversa, diferentes datos pueden requerir diferentes métodos. Existen métodos para cuantitativos y métodos para datos cualitativos. La mezcla de características cuantitativas + cualitativas reduce drásticamente el alcance de elección entre los métodos. Ward's o K-meansse basan, explícita o implícitamente, en la medida de proximidad de distancia euclidiana (al cuadrado) solamente y no en una medida arbitraria. Los datos binarios pueden requerir medidas especiales de similitud que a su vez cuestionarán fuertemente el uso de algunos métodos, por ejemplo Ward's o K-means, para ellos. Big data puede necesitar algoritmos especiales o implementaciones especiales.
Validez externa . "Preferí este método porque me dio grupos que difieren según sus antecedentes o grupos que coinciden con los verdaderos que conozco" . Si una partición de agrupación presenta agrupaciones que son claramente diferentes en algunas características importantes de fondo (es decir, no participaron en el análisis de agrupación), entonces es un activo para ese método que produjo la partición. Use cualquier análisis que aplique para verificar la diferencia; También existen varios criterios útiles de agrupamiento externo(Rand, medida F, etc., etc.) Otra variante del caso de validación externa es cuando de alguna manera conoce los verdaderos clústeres en sus datos (conozca la "verdad fundamental"), como cuando generó los clústeres usted mismo. Entonces, la precisión de su método de agrupación es capaz de descubrir los clústeres reales.
Validez cruzada . "Preferí este método porque me da grupos muy similares en muestras equivalentes de datos o se extrapola bien en esas muestras" . Existen varios enfoques y sus híbridos, algunos más factibles con algunos métodos de agrupación, mientras que otros con otros métodos. Dos enfoques principales son el control de estabilidad y la generalización.comprobar. Comprobando la estabilidad de un método de agrupamiento, uno divide o remuestrea aleatoriamente los datos en conjuntos parcialmente entrecruzados o totalmente disjuntos y realiza el agrupamiento en cada uno; luego iguala y compara las soluciones con algunas características emergentes del clúster (por ejemplo, la ubicación de tendencia central de un clúster) si es estable en todos los conjuntos. La verificación de la posibilidad de generalización implica agrupar en un conjunto de trenes y luego usar su característica o regla de agrupamiento emergente para asignar objetos de un conjunto de prueba, además de también agrupar en el conjunto de prueba. Los resultados de la asignación y la pertenencia al clúster del resultado de agrupación de los objetos del conjunto de pruebas se comparan entonces.
Interpretación . "Preferí este método porque me dio grupos que, explicaron, son muy persuasivos de que haya significado en el mundo" . No es estadístico, es su validación psicológica. Cuán significativos son los resultados para usted, el dominio y, posiblemente, la audiencia / cliente. Elija el método que ofrezca los resultados picantes más interpretables.
Gregaria . Algunas investigaciones regularmente y todas las investigaciones ocasionalmente dirían "Preferí este método porque con mis datos dio resultados similares con otros métodos entre todos los que probé" . Esta es una estrategia heurística pero cuestionable que supone que existen datos bastante universales o un método bastante universal.
Los puntos 1 y 2 son teóricos y preceden la obtención del resultado; exclusiva depender de estos puntos es la soberbia, la estrategia exploratoria seguro de sí mismo. Los puntos 3, 4 y 5 son empíricos y seguir el resultado; exclusiva depender de estos puntos es el inquieto, try-toda-la estrategia exploratoria. El punto 6 es creativo, lo que significa que niega cualquier resultado para intentar reajustarlo. El punto 7 es leal mauvaise foi.
Los puntos 3 a 7 también pueden ser jueces en su selección del "mejor" número de agrupaciones .
fuente
En su mayoría hay criterios de bandera roja . Propiedades de los datos que le indican que un enfoque determinado fallará con seguridad.
Si no tiene idea de lo que significan sus datos , deje de analizarlos. solo estás adivinando animales en las nubes.
si los atributos varían en escala y son no lineales o sesgados. Esto puede arruinar su análisis a menos que tenga una muy buena idea de la normalización adecuada. Deténgase y aprenda a comprender sus funciones, es demasiado pronto para agrupar.
si cada atributo es equivalente (misma escala) y lineal, y desea cuantificar su conjunto de datos (y el error de mínimos cuadrados tiene un significado para sus datos), entonces vale la pena probar k-means. Si sus atributos son de diferente tipo y escala, el resultado no está bien definido. Contraejemplo: edad e ingresos. El ingreso es muy sesgado y no
x years = y dollar
tiene sentido.Si tiene una idea muy clara de cómo cuantificar la similitud o la distancia (de manera significativa ; la capacidad de calcular un número no es suficiente), entonces el agrupamiento jerárquico y DBSCAN son una buena opción. Si no tienes idea de cómo cuantificar la similitud, primero resuelve ese problema.
Verá que el problema más común es que las personas intentan volcar sus datos sin procesar en clústeres, cuando primero necesitan comprenderlos y normalizarlos, y descubrir similitudes.
Ejemplos:
Píxeles de una imagen en el espacio RGB. Los mínimos cuadrados tienen algún sentido y todos los atributos son comparables: k-means es una buena opción.
Datos geográficos: mínimos cuadrados no es muy apropiado. Habrá valores atípicos. Pero la distancia es muy significativa. Use DBSCAN si tiene mucho ruido, o HAC (agrupamiento jerárquico aglomerativo) si tiene datos muy limpios.
Especies observadas en diferentes hábitats. Los mínimos cuadrados son dudosos, pero, por ejemplo, la similitud de Jaccard es significativa. Probablemente solo tenga algunas observaciones y ningún hábitat "falso": use HAC.
fuente
stop criteria
. Porque, como sabe, "reglas de detención" o "criterios de detención" es sinónimo de "criterios de agrupación interna" en el dominio de la agrupación jerárquica. Entonces, es un término preocupado. Pero te refieres a estas palabras en un sentido diferente en la respuesta, y esto puede confundir al lector.(non)linear attributes
. ¿Qué quieres decir? ¿De qué manera un "lineal" atributo? o usted está hablando de lineales relaciones , es decir, elipsoidales (y no curvada) formas de racimos?No creo que haya una buena forma formal de hacer esto; Creo que las buenas soluciones son las que tienen sentido, sustantivamente.
Por supuesto, puede intentar dividir los datos y agruparlos varias veces y así, pero aún queda la cuestión de cuál es útil.
fuente