Sé que k-means no está supervisado y se utiliza para la agrupación, etc., y que k-NN está supervisado. ¿Pero quería saber diferencias concretas entre los dos?
86
Sé que k-means no está supervisado y se utiliza para la agrupación, etc., y que k-NN está supervisado. ¿Pero quería saber diferencias concretas entre los dos?
Respuestas:
Estos son métodos completamente diferentes. El hecho de que ambos tengan la letra K en su nombre es una coincidencia.
K-means es un algoritmo de agrupamiento que intenta dividir un conjunto de puntos en K conjuntos (grupos) de modo que los puntos en cada grupo tienden a estar cerca uno del otro. No está supervisado porque los puntos no tienen clasificación externa.
K-vecinos más cercanos es un algoritmo de clasificación (o regresión) que, para determinar la clasificación de un punto, combina la clasificación de los K puntos más cercanos. Se supervisa porque está intentando clasificar un punto en función de la clasificación conocida de otros puntos.
fuente
Como señaló Bitwise en su respuesta , k-means es un algoritmo de agrupamiento. Si se trata de k vecinos más cercanos (k-NN), la terminología es un poco confusa:
en el contexto de la clasificación, es un algoritmo de clasificación, como también se señaló en la respuesta antes mencionada
en general es un problema , para el cual existen varias soluciones (algoritmos)
Entonces, en el primer contexto, decir "clasificador k-NN" en realidad puede significar varios algoritmos concretos subyacentes que resuelven el problema k-NN, y su resultado se interpreta con el propósito de clasificación.
Estas son dos cosas diferentes, pero puede que le resulte interesante que el algoritmo k-means sea uno de los varios métodos posibles para resolver el problema k-NN (Marius Muja y David G. Lowe, "Vecinos más cercanos rápidos y aproximados con configuración automática de algoritmos" , en Conferencia internacional sobre teoría y aplicaciones de la visión por computadora (VISAPP'09), 2009 PDF )
fuente
Puede tener un k-means supervisado. Puede construir centroides (como en k-means) en función de sus datos etiquetados. Nada te detiene. Si desea mejorar esto, el espacio euclidiano y la distancia euclidiana pueden no proporcionarle los mejores resultados. Deberá elegir su espacio (podría ser el espacio riemanniano, por ejemplo) y definir la distancia entre puntos (e incluso definir un "punto"). Los dos últimos son temas de investigación y también dependen del tipo (propiedades) de datos (señal) que tenga.
fuente
K-means puede crear la información del clúster para los nodos vecinos, mientras que KNN no puede encontrar el clúster para un nodo vecino determinado.
fuente
k Los medios se pueden usar como la fase de entrenamiento antes de que knn se implemente en la etapa de clasificación real. K significa que crea las clases representadas por el centroide y la etiqueta de clase de las muestras que pertenecen a cada clase. knn usa estos parámetros, así como el número k, para clasificar una nueva muestra invisible y asignarla a una de las k clases creadas por el algoritmo K significa
fuente