¿Cómo debo interpretar la estadística GAP?

Utilicé la estadística GAP para estimar k grupos en R. Sin embargo, no estoy seguro de interpretarlo bien. ingrese la descripción de la imagen aquí

De la trama anterior, supongo que debería usar 3 grupos.

ingrese la descripción de la imagen aquí

De la segunda trama, debería elegir 6 grupos. ¿Es correcta la interpretación de la estadística GAP?

Agradecería cualquier explicación.

clustering peterpeter
fuente

Dos preguntas: ¿qué muestra la primera trama? ¿Es una estadística GAP para los mismos datos? ¿Por qué se vería diferente al segundo (que veo es un GAP). ¿Qué funciones de R usaste? Segunda pregunta: ¿utilizó la regla de '1 error estándar' para elegir 6 para la segunda gráfica?

Deathkill14

Por lo tanto, hay dos enfoques diferentes para la agrupación. El primero basado en series de tiempo: ventas durante 26 semanas y agrupé datos basados en una deformación dinámica del tiempo. El segundo enfoque fue agrupar los parámetros de la curva de crecimiento, también basados en la deformación dinámica del tiempo. Solía clusGapbasarme en globalmax, no sabía cómo implementar maxSE.

Peter

Para obtener una agrupación ideal, debe seleccionar manera que maximice la estadística de espacio. Aquí está el ejemplo dado por Tibshirani et al. (2001) en su artículo, la trama formada por datos artificiales con 2 grupos. Como puede ver, 2 es claramente la ideal , porque la estadística de brecha se maximiza en : $k$ $k$ $k=2$

Sin embargo, en muchos conjuntos de datos del mundo real, los grupos no están tan bien definidos y queremos equilibrar la maximización de la estadística de brecha con la parsimonia del modelo. Caso en cuestión: primera imagen de OP. Si estamos maximizando solo la estadística de brecha , entonces deberíamos elegir el modelo con 30 (¡o incluso más!) Grupos. Suponiendo que esa trama seguirá aumentando, por supuesto, los resultados son menos útiles. Entonces Tibshirani sugiere el método de 1 error estándar :

Elija el tamaño del clúster para que sea el más pequeño, de modo que . $\hat{k}$ $k$ $\text{Gap}(k) \geq \text{Gap}(k + 1) - s_{k + 1}$

Lo que informalmente está identificando el punto en el que la tasa de aumento de la estadística de brecha comienza a "disminuir".

Entonces, en la primera imagen de OP, si tomamos las barras de error rojas como error estándar, entonces 3 es la más pequeña que satisface este criterio: $k$

Sin embargo, para la segunda imagen de OP, verá que la estadística de brecha disminuye inmediatamente para . Entonces, la primera que satisface el criterio de error estándar es . Esta es la forma de la trama de decir que los datos no deben agruparse. $k > 1$ $k$ $1$

Como resultado, hay formas adicionales de elegir óptima . El método predeterminado de la función R , por ejemplo, siempre busca el máximo local del gráfico y selecciona el más pequeño dentro de un error estándar del máximo local. Usando este método, seleccionaríamos y para los gráficos 1 y 2 de OP respectivamente. Como dije, sin embargo, esto parece sufrir un problema de complejidad. $k$ clusGap $k$ firstSEmax $k = 30$ $k = 19$

Fuente: Robert Tibshirani, Guenther Walther y Trevor Hastie (2001). Estimación del número de clústeres en un conjunto de datos a través de la estadística de brecha.

jayelm
fuente

Al estimar el valor de partir de la estadística de brecha, ¿cómo puedo calcular / estimar la probabilidad de que sea el número verdadero de grupos? ¿O mi pregunta no tiene sentido?

k

$k$

k

$k$

quant_dev

Gracias por señalar el compromiso entre maximizar la estadística de brecha y obtener la parsimonia del modelo

cloudcomputes

¿Cómo debo interpretar la estadística GAP?

Respuestas: