Actualmente, estoy tratando de analizar un conjunto de datos de documentos de texto que no tiene ninguna verdad fundamental. Me dijeron que puede usar la validación cruzada k-fold para comparar diferentes métodos de agrupación. Sin embargo, los ejemplos que he visto en el pasado utilizan una verdad fundamental. ¿Hay alguna forma de utilizar los medios k-fold en este conjunto de datos para verificar mis resultados?
Estoy tratando de entender cómo aplicaría la validación cruzada al método de agrupación, como el k-means, ya que los nuevos datos que vienen cambiarán el centroide e incluso las distribuciones de agrupación en su existente.
Con respecto a la validación no supervisada en el agrupamiento, es posible que deba cuantificar la estabilidad de sus algoritmos con un número de clúster diferente en los datos muestreados nuevamente.
La idea básica de la estabilidad de la agrupación se puede mostrar en la siguiente figura:
Puede observar que con el número de agrupación de 2 o 5, hay al menos dos resultados de agrupación diferentes (vea las líneas de guiones de división en las figuras), pero con el número de agrupación de 4, el resultado es relativamente estable.
Estabilidad de agrupamiento: una descripción general de Ulrike von Luxburg podría ser útil.
fuente
El remuestreo, tal como se hace durante la validación cruzada (repetida), genera conjuntos de datos "nuevos" que varían del conjunto de datos original al eliminar algunos casos.k
Para facilitar la explicación y la claridad, arrancaría el agrupamiento.
En general, puede usar dichos agrupamientos muestreados para medir la estabilidad de su solución: ¿apenas cambia o cambia por completo?
A pesar de que no tiene una verdad básica, puede comparar el agrupamiento que resulta de diferentes ejecuciones del mismo método (remuestreo) o los resultados de diferentes algoritmos de agrupamiento, por ejemplo, tabulando:
Como los grupos son nominales, su orden puede cambiar arbitrariamente. Pero eso significa que puede cambiar el orden para que los grupos correspondan. Luego, los elementos diagonales * cuentan los casos asignados al mismo clúster y los elementos fuera de diagonal muestran de qué manera cambiaron las asignaciones:
Diría que el remuestreo es bueno para establecer qué tan estable es su agrupación dentro de cada método. Sin eso, no tiene mucho sentido comparar los resultados con otros métodos.
* funciona también con matrices no cuadradas si resultan diferentes números de grupos. Luego me alinearía para que los elementos tenga el significado de la diagonal anterior. Las filas / columnas adicionales luego muestran de qué grupos el nuevo grupo obtuvo sus casos.yo , yo
No estás mezclando k-fold cross validation y k-means clustering, ¿verdad?
fuente
Hay una publicación reciente sobre un método de validación cruzada para determinar el número de clústeres aquí .
y alguien está intentando implementar con sci-kit, aprende aquí .
fuente