Tengo algunos datos sobre el tiempo entre latidos de un humano. Una indicación de latidos ectópicos (extra) es que estos intervalos se agrupan alrededor de tres valores en lugar de uno. ¿Cómo puedo obtener una medida cuantitativa de esto?
Estoy buscando comparar múltiples conjuntos de datos, y estos dos histogramas de 100 bandejas son representativos de todos ellos.
Podría comparar las variaciones, pero quiero que mi algoritmo pueda detectar si hay uno o tres grupos en cada caso sin compararlos con los otros casos.
Esto es para el procesamiento fuera de línea, por lo que hay mucha potencia de cálculo disponible, si es necesario.
clustering
Nikolaus
fuente
fuente
Respuestas:
Aconsejo fuertemente contra el uso de k-means aquí. Los resultados para diferentes valores de k no son muy comparables. El método es solo una cruda heurística. Si realmente desea usar la agrupación, use la agrupación EM, ya que sus datos parecen contener distribuciones normales. ¡Y valide sus resultados!
En cambio, el enfoque obvio es intentar ajustar una sola función gaussiana y (por ejemplo, utilizando el método de Levenberg-Marquard) ajustar tres funciones gaussianas, tal vez restringidas a la misma altura (para evitar la degeneración).
Luego pruebe, cuál de las dos distribuciones se ajusta mejor.
fuente
Ajuste una distribución de mezcla a los datos, algo así como una mezcla de 3 distribuciones normales, luego compare la probabilidad de que se ajuste a un ajuste de una distribución normal única (usando la prueba de razón de probabilidad, o AIC / BIC). El
flexmix
paqueteR
puede ser de ayuda.fuente
fuente
Use un algoritmo de agrupación de K-medias para identificar los diversos medios
Busque la función KNN en R-seek para encontrar la función adecuada
fuente
kmeans
función de Matlab . Los medios resultantes varían ampliamente de un intento a otro. (¿Mala heurística en esta implementación?) Para el conjunto de 1 clúster, obtengo medias alrededor (270,293,693) a veces, alrededor (260,285,308) a veces. Para el conjunto de 3 grupos, algunas respuestas son (196,324,468,) y (290,459,478).