Utilicé la estadística GAP para estimar k grupos en R. Sin embargo, no estoy seguro de interpretarlo bien.
De la trama anterior, supongo que debería usar 3 grupos.
De la segunda trama, debería elegir 6 grupos. ¿Es correcta la interpretación de la estadística GAP?
Agradecería cualquier explicación.
clustering
peterpeter
fuente
fuente
clusGap
basarme en globalmax, no sabía cómo implementar maxSE.Respuestas:
Para obtener una agrupación ideal, debe seleccionar manera que maximice la estadística de espacio. Aquí está el ejemplo dado por Tibshirani et al. (2001) en su artículo, la trama formada por datos artificiales con 2 grupos. Como puede ver, 2 es claramente la ideal , porque la estadística de brecha se maximiza en :k k k=2
Sin embargo, en muchos conjuntos de datos del mundo real, los grupos no están tan bien definidos y queremos equilibrar la maximización de la estadística de brecha con la parsimonia del modelo. Caso en cuestión: primera imagen de OP. Si estamos maximizando solo la estadística de brecha , entonces deberíamos elegir el modelo con 30 (¡o incluso más!) Grupos. Suponiendo que esa trama seguirá aumentando, por supuesto, los resultados son menos útiles. Entonces Tibshirani sugiere el método de 1 error estándar :
Lo que informalmente está identificando el punto en el que la tasa de aumento de la estadística de brecha comienza a "disminuir".
Entonces, en la primera imagen de OP, si tomamos las barras de error rojas como error estándar, entonces 3 es la más pequeña que satisface este criterio:k
Sin embargo, para la segunda imagen de OP, verá que la estadística de brecha disminuye inmediatamente para . Entonces, la primera que satisface el criterio de error estándar es . Esta es la forma de la trama de decir que los datos no deben agruparse.k>1 k 1
Como resultado, hay formas adicionales de elegir óptima . El método predeterminado de la función R , por ejemplo, siempre busca el máximo local del gráfico y selecciona el más pequeño dentro de un error estándar del máximo local. Usando este método, seleccionaríamos y para los gráficos 1 y 2 de OP respectivamente. Como dije, sin embargo, esto parece sufrir un problema de complejidad.k k k=30 k=19
clusGap
firstSEmax
Fuente: Robert Tibshirani, Guenther Walther y Trevor Hastie (2001). Estimación del número de clústeres en un conjunto de datos a través de la estadística de brecha.
fuente