Cuando hacemos clasificación y regresión, generalmente establecemos conjuntos de pruebas y capacitación para ayudarnos a construir y mejorar modelos.
Sin embargo, cuando hacemos clustering, ¿también necesitamos establecer conjuntos de prueba y entrenamiento? ¿Por qué?
Respuestas:
Sí, porque la agrupación también puede sufrir un problema de sobreajuste. Por ejemplo, aumentar el número de clústeres siempre "aumentará el rendimiento".
Aquí hay una demostración que usa la agrupación de K-Means:
La función objetivo de K-means es (los detalles de notación se pueden encontrar aquí )
Con tal objetivo, la inferior significa "mejor" modelo.J
Supongamos que tenemos los siguientes datos (datos del iris), elegir el número de clúster como siempre será "mejor" que elegir el número de clúster como . Luego, elegir grupos será mejor que grupos. Podemos continuar en esta pista y terminar con un costo : simplemente haga que el número del grupo sea igual al número de puntos de datos y coloque todo el centro del grupo en los puntos correspondientes.4 4 3 5 5 4 4 J= 0
Si tenemos datos retenidos para las pruebas, nos evitará un ajuste excesivo. El mismo ejemplo, supongamos que estamos eligiendo grupos de números grandes y colocamos cada centro de grupo en los puntos de datos de entrenamiento. El error de prueba será grande, porque los puntos de datos de prueba no se superpondrán con los datos de entrenamiento.
fuente
No, esto generalmente no será posible.
Hay muy pocos agrupamientos que podría usar como un clasificador. Solo con k-means, PAM, etc. podría evaluar la "generalización", pero la agrupación se ha vuelto mucho más diversa (e interesante) desde entonces. Y, de hecho, incluso la antigua agrupación jerárquica no se generalizará bien a los datos "nuevos". La agrupación no es clasificación. Muchos métodos de clasificación no se transfieren bien a la agrupación; incluida la optimización de hiperparámetros.
Si solo ha etiquetado parcialmente los datos, puede usar estas etiquetas para optimizar los parámetros. Pero el escenario general de la agrupación será que desea obtener más información sobre su conjunto de datos; así que ejecuta el agrupamiento varias veces, investiga los grupos interesantes (porque generalmente, algunos grupos claramente son demasiado pequeños o demasiado grandes para ser interesantes) y anota algunas de las ideas que obtuviste. La agrupación en clúster es una herramienta para ayudar al ser humano a explorar un conjunto de datos , no una cosa automática. Pero no "desplegará" una agrupación. Son demasiado poco confiables, y un solo grupo nunca "contará toda la historia".
fuente
No. No utiliza la capacitación y las pruebas en el aprendizaje no supervisado. No existe una función objetiva en el aprendizaje no supervisado para probar el rendimiento del algoritmo.
fuente