Para una comprensión visual, puede pensar en entrenar KNN como un proceso de colorear regiones y trazar límites alrededor de los datos de entrenamiento.
Primero podemos dibujar límites alrededor de cada punto en el conjunto de entrenamiento con la intersección de las bisectrices perpendiculares de cada par de puntos. (La animación de bisectriz perpendicular se muestra a continuación)
fuente gif
Para saber cómo colorear las regiones dentro de estos límites, para cada punto miramos el color del vecino. CuandoK= 1, para cada punto de datos, X, En nuestro conjunto de entrenamiento, queremos encontrar uno otro punto,X′, que tiene la menor distancia de X. La distancia más corta posible es siempre0 0, lo que significa que nuestro "vecino más cercano" es en realidad el punto de datos original en sí mismo, x =X′.
Para colorear las áreas dentro de estos límites, buscamos la categoría correspondiente a cada X. Digamos que nuestras opciones son azules y rojas. ConK= 1, coloreamos las regiones que rodean los puntos rojos con rojo y las regiones que rodean el azul con azul. El resultado se vería así:
Observe cómo no hay puntos rojos en las regiones azules y viceversa. Eso nos dice que hay un error de entrenamiento de 0.
Tenga en cuenta que los límites de decisión generalmente se dibujan solo entre diferentes categorías (deseche todos los límites azul-azul rojo-rojo) para que su límite de decisión se parezca más a esto:
Nuevamente, todos los puntos azules están dentro de los límites azules y todos los puntos rojos están dentro de los límites rojos; Todavía tenemos un error de prueba de cero. Por otro lado, si aumentamosK a K= 20, tenemos el siguiente diagrama. Observe que hay algunos puntos rojos en las áreas azules y puntos azules en las áreas rojas. Así es como se ve un error de entrenamiento distinto de cero.
Cuando K= 20, coloreamos las regiones alrededor de un punto según la categoría de ese punto (color en este caso) y la categoría de 19 de sus vecinos más cercanos. Si la mayoría de los vecinos son azules, pero el punto original es rojo, el punto original se considera un valor atípico y la región a su alrededor es de color azul. Es por eso que puede tener tantos puntos de datos rojos en un área azul y viceversa.
fuente de imágenes