Mi pregunta es sobre el clasificador vecino más cercano y sobre una declaración hecha en el excelente libro The Elements of Statistical Learning, de Hastie, Tibshirani y Friedman. La declaración es (p. 465, sección 13.3):
"Debido a que usa solo el punto de entrenamiento más cercano al punto de consulta, el sesgo de la estimación del vecino más cercano a menudo es bajo, pero la varianza es alta".
El libro está disponible en
http://www-stat.stanford.edu/~tibs/ElemStatLearn/download.html
Para empezar, podemos definir qué sesgo y varianza son. De la pregunta "cómo-puede-aumentar-la-dimensión-aumentar-la-varianza-sin-aumentar-la-bi" , tenemos que:
"En primer lugar, el sesgo de un clasificador es la discrepancia entre su función promedio estimada y verdadera, mientras que la varianza de un clasificador es la divergencia esperada de la función de predicción estimada de su valor promedio (es decir, qué tan dependiente es el clasificador del azar) muestreo realizado en el conjunto de entrenamiento).
Por lo tanto, la presencia de sesgo indica algo básicamente incorrecto con el modelo, mientras que la varianza también es mala, pero un modelo con alta varianza podría al menos predecir bien en promedio ".
¿Podría alguien explicar por qué la varianza es alta y el sesgo es bajo para el clasificador vecino más cercano?
fuente
Debe tener en cuenta que el clasificador de 1 vecino más cercano es en realidad el modelo de vecino más cercano más complejo . Por más complejo, quiero decir que tiene el límite de decisión más irregular, y es más probable que se sobreajuste. Si usa un clasificador vecino más cercano a N (N = número de puntos de entrenamiento), clasificará todo como la clase mayoritaria. Las diferentes permutaciones de los datos le darán la misma respuesta, dándole un conjunto de modelos que tienen una variación cero (todos son exactamente iguales), pero un alto sesgo (todos están constantemente equivocados). Reducir la configuración de K te acerca cada vez más a los datos de entrenamiento (bajo sesgo), pero el modelo dependerá mucho más de los ejemplos de entrenamiento particulares elegidos (alta varianza).
fuente
Aquí hay una publicación de blog muy interesante sobre sesgo y varianza. La sección 3.1 trata sobre el algoritmo knn y explica por qué una k baja conduce a una alta varianza y un bajo sesgo.
La figura 5 es muy interesante: puede ver en tiempo real cómo cambia el modelo mientras k aumenta. Para k bajo, hay una gran cantidad de sobreajuste (algunas "islas" aisladas) que conduce a un bajo sesgo pero una gran varianza. Para k muy alto, tienes un modelo más suave con baja varianza pero alto sesgo. En este ejemplo, un valor de k entre 10 y 20 dará un modelo de descenso que es lo suficientemente general (variación relativamente baja) y lo suficientemente preciso (sesgo relativamente bajo).
fuente