Elegir K óptimo para KNN

15

Realicé un CV de 5 veces para seleccionar la K óptima para KNN. Y parece que cuanto más grande se hace K, más pequeño es el error ...

ingrese la descripción de la imagen aquí

Lo siento, no tenía una leyenda, pero los diferentes colores representan diferentes pruebas. Hay 5 en total y parece que hay poca variación entre ellos. El error siempre parece disminuir cuando K se agranda. Entonces, ¿cómo puedo elegir la mejor K? ¿K = 3 sería una buena opción aquí porque el tipo de gráfico se nivela después de K = 3?

Adrian
fuente
¿Qué vas a hacer con los grupos una vez que los hayas encontrado? En última instancia, lo que va a hacer con los clusters producidos por su algoritmo de clustering ayudará a determinar si vale la pena usar más clusters para obtener un pequeño error.
Brian Borchers
Quiero un alto poder predictivo. En este caso ... ¿debería ir con K = 20? Ya que tiene el error más bajo. Sin embargo, en realidad tracé los errores para K hasta 100. Y 100 tiene el error más bajo de todos ... así que sospecho que el error disminuirá a medida que K aumente. Pero no sé cuál es un buen punto de corte.
Adrian

Respuestas:

12

Si continúa, eventualmente terminará con el error de CV comenzando a aumentar nuevamente. Esto se debe a que cuanto más grande sea , más suavizado tendrá lugar, y eventualmente suavizará tanto que obtendrá un modelo que no se ajusta a los datos en lugar de ajustarlos demasiado (haga k lo suficientemente grande y la salida será constante independientemente de los valores de los atributos). Extendería la trama hasta que el error CV comience a aumentar notablemente nuevamente, solo para estar seguro, y luego elija la k que minimice el error CV. Cuanto más grande sea k, más suave será el límite de decisión y más simple será el modelo, por lo que si el gasto computacional no es un problema, elegiría un valor mayor de kkkkkk que uno más pequeño, si la diferencia en sus errores de CV es insignificante.

Si el error CV no comienza a aumentar de nuevo, eso probablemente significa que los atributos no son informativos (al menos para esa métrica de distancia) y dar resultados constantes es lo mejor que puede hacer.

Dikran Marsupial
fuente
2

K=17K=3

Flounderer
fuente
0

¿Hay algún significado físico o natural detrás del número de grupos? Si no me equivoco, es natural que a medida que K aumenta, el error disminuye, algo así como un sobreajuste. En lugar de buscar el K óptimo, ¿probablemente sea mejor elegir K en base al conocimiento del dominio o alguna intuición?

Tohweizhong
fuente
Creo que esta respuesta sería más apropiada para la agrupación de k-medias en lugar de la clasificación o regresión de k-nn.
Dikran Marsupial
Si k es demasiado grande, no lo está ajustando, entonces el error volverá a subir.
James