¿Los anchos de silueta bajos significan que los datos tienen poca estructura subyacente?

Soy nuevo en el análisis de secuencia, y me preguntaba cómo reaccionaría si los anchos de silueta promedio (ASW) de los análisis de conglomerados de matrices de disimilitud basadas en la coincidencia óptima son bajos (alrededor de 25). ¿Parecería apropiado concluir que hay poca estructura subyacente que permita agrupar las secuencias? ¿Podría ignorar el bajo ASW basado en otras medidas de calidad de clúster (he pegado algunas a continuación)? ¿O es probable que las elecciones realizadas durante el análisis de secuencia o los análisis de clúster posteriores puedan ser responsables de los bajos números de ASW?

Cualquier sugerencia sera apreciada. Gracias.

En caso de que se necesite más contexto:

Estoy examinando 624 secuencias de desajustes de horas de trabajo (es decir, desajustes entre el número de horas que una persona prefiere trabajar en una semana y el número de horas que realmente trabajan) entre personas de 20 años. Todas las secuencias que estoy examinando tienen una longitud de 10. Mi objeto de secuencia tiene cinco estados (M = quiere más horas, S = quiere las mismas horas, F = quiere menos horas, O = fuera de la fuerza laboral y U = desempleado )

No he hecho una contabilidad sistemática de cómo varían los resultados de ASW con diferentes combinaciones de enfoques. Aún así, probé los costos indirectos bajos y medios (.1 y .6 del costo máximo de sustitución; me importa más el orden de los eventos que su cronometraje) y diferentes procedimientos de agrupamiento (barrio, promedio y pam). Mi impresión general es que los números ASW siguen siendo bajos.

Quizás los bajos resultados de ASW tengan sentido. Esperaría que estos estados vengan en una variedad de diferentes órdenes, y los estados pueden repetirse. La eliminación de observaciones duplicadas solo reduce el N de 624 a 536. El estudio de los datos revela que de hecho hay una buena variedad y secuencias que consideraría muy diferentes, por ejemplo, las personas que querían las mismas horas todo el tiempo, desarrollaron un desajuste, resolvieron un desajuste, y oscilaba de un lado a otro entre tener y no tener un desajuste. Quizás la falta de grupos claramente diferenciados no es lo mismo que la falta de variaciones interesantes. Aún así, los resultados débiles del grupo parecen dejarme sin una buena manera de resumir las secuencias.

Resultados del método de Ward con indel establecido en .1 del costo de sustitución de 2 Estas estadísticas parecen sugerir que una solución de 6 grupos podría ser buena. Sin embargo, el ASW es bajo, al menos para soluciones que tienen un número razonable de clústeres (2 o 3 son muy pocos).

           PBC   HG HGSD  ASW ASWw     CH   R2   CHsq R2sq   HC
cluster2  0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3  0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4  0.54 0.74 0.71 0.25 0.25  88.66 0.30 203.72 0.50 0.14
cluster5  0.59 0.83 0.79 0.25 0.25  75.85 0.33 183.21 0.54 0.09
cluster6  0.59 0.85 0.82 0.24 0.25  66.94 0.35 164.51 0.57 0.08
cluster7  0.47 0.79 0.75 0.18 0.19  64.09 0.38 154.47 0.60 0.12
cluster8  0.47 0.81 0.77 0.20 0.21  59.47 0.40 152.36 0.63 0.11
cluster9  0.48 0.84 0.80 0.19 0.21  56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21  53.24 0.44 140.18 0.67 0.08

clustering traminer JeremyR
fuente

El ASW es una medida de la coherencia de una solución de agrupación. Un valor ASW alto significa que los grupos son homogéneos (todas las observaciones están cerca del centro del grupo) y que están bien separados. Según Kaufmann y Rousseuw (1990), un valor inferior a 0,25 significa que los datos no están estructurados. Entre 0.25 y 0.5, los datos pueden estar estructurados, pero también pueden ser un artificio. Tenga en cuenta que estos valores son indicativos y no deben usarse como un umbral de decisión. Estos valores no están definidos teóricamente (no se basan en algún valor p) sino que se basan en la experiencia de los autores. Por lo tanto, de acuerdo con estos valores bajos de ASW, sus datos parecen estar bastante desestructurados. Si el propósito del análisis de conglomerados es solo descriptivo, puede argumentar que revela algunos (pero solo algunos) de los patrones más destacados. Sin embargo,

También puede intentar echar un vistazo a los valores ASW "por cluster" (esto es dado por la función wcClusterQuality). Tal vez algunos de sus grupos estén bien definidos y otros sean "espurios" (ASW <0), lo que da como resultado un valor ASW global bajo.

Puedes intentar usar estrategias de arranque, que deberían darte una mejor pista. En R, la función clusterbooten el paquete fpcse puede utilizar para este propósito (consulte la página de ayuda). Sin embargo, no funciona con datos ponderados. Si sus datos no están ponderados, creo que vale la pena intentarlo.

Finalmente, es posible que desee ver más de cerca sus datos y su categorización. Tal vez, sus categorías son demasiado inestables o no están bien definidas. Sin embargo, no parece ser el caso aquí.

Como ha dicho, "la falta de grupos claramente diferenciados no es lo mismo que la falta de variaciones interesantes". Existen otros métodos para analizar la variabilidad de sus secuencias, como el análisis de discrepancias. Estos métodos le permiten estudiar los vínculos entre secuencias y factores explicativos. Puede, por ejemplo, intentar construir árboles de regresión de secuencia (función "seqtree" en el paquete TraMineR).

Matthias Studer
fuente

¿Los anchos de silueta bajos significan que los datos tienen poca estructura subyacente?

Respuestas: