Me gustaría codificar una agrupación de kmeans en python usando pandas y scikit learn. Para seleccionar la buena k, me gustaría codificar la estadística Gap de Tibshirani y al 2001 ( pdf ).
Me gustaría saber si podría usar el resultado de inercia_ de scikit y adaptar la fórmula estadística de hueco sin tener que recodificar todos los cálculos de distancias.
¿Alguien sabe la fórmula de inercia utilizada en scikit / conoce una manera fácil de recodificar la estadística de brecha utilizando funciones de distancia de alto nivel?
clustering
python
k-means
scikit-learn
metric
Rasguño
fuente
fuente
python
.Respuestas:
Creo que encontré mi respuesta para kmeans clustering:
Todavía tengo dos preguntas:
fuente