Es bastante difícil comparar kNN y la regresión lineal directamente, ya que son cosas muy diferentes, sin embargo, creo que el punto clave aquí es la diferencia entre "modelar " y "tener suposiciones sobre ".f(x)f(x)
Al hacer una regresión lineal, uno modela específicamente la , a menudo algo entre las líneas de donde es un término de ruido gaussiano. Puede deducir que el modelo de máxima verosimilitud es equivalente al modelo de error mínimo de suma de cuadrados.f(x)f(x)=wx+ϵϵ
KNN, por otro lado, como sugiere su segundo punto, supone que podría aproximarse a esa función mediante una función localmente constante : alguna medida de distancia entre las -ses, sin modelar específicamente toda la distribución.x
En otras palabras, la regresión lineal a menudo tendrá una buena idea del valor de para algunas invisibles solo por el valor de la , mientras que kNN necesitaría alguna otra información (es decir, las k vecinas) para hacer predicciones sobre , porque el valor de , y solo el valor en sí mismo, no proporcionará ninguna información, ya que no existe un modelo para .f(x)xxf(x)xf(x)
EDITAR: reiterando esto a continuación para volver a expresar esto más claro (ver comentarios)
Está claro que tanto la regresión lineal como los métodos de vecino más cercano apuntan a predecir el valor de para una nueva . Ahora hay dos enfoques. La regresión lineal continúa suponiendo que los datos caen en una línea recta (más menos algo de ruido) y, por lo tanto, el valor de y es igual al valor de multiplicado por la pendiente de la línea. En otras palabras, la expresión lineal modela los datos como una línea recta.x f ( x )y=f(x)xf(x)
Ahora, los métodos del vecino más cercano no se preocupan por cómo se ven los datos (no modela los datos), es decir, no les importa si es una línea, una parábola, un círculo, etc. Todo lo que se supone es que y será similar, si y son similares. Tenga en cuenta que esta suposición es más o menos cierta para casi cualquier modelo, incluidos todos los que mencioné anteriormente. Sin embargo, un método NN no podría decir cómo se relaciona el valor de con (si es una línea, una parábola, etc.), ya que no tiene un modelo de esta relación, simplemente supone que puede ser aproximado por mirando en puntos cercanos.f ( x 2 ) x 1 x 2 f ( x ) xf(x1)f(x2)x1x2f(x)x
La regresión lineal se basa en el modelo porque supone una suposición sobre la estructura de los datos para generar un modelo. Cuando se carga un conjunto de datos en un programa estadístico y lo utiliza para ejecutar una regresión lineal, la salida es de hecho un modelo: . Puede alimentar nuevos datos en este modelo y obtener una salida pronosticada porque ha hecho suposiciones sobre cómo se genera realmente la variable de salida.f^(X)=β^X
Con KNN no hay realmente un modelo en absoluto: solo se supone que las observaciones que están cerca unas de otras en el espacio probablemente se comportarán de manera similar en términos de la variable de salida. No introduce una nueva observación en un 'modelo KNN', solo determina qué observaciones existentes son más similares a una nueva observación y predice la variable de salida para la nueva observación a partir de los datos de entrenamiento.X
fuente
El término basado en modelo es sinónimo de "basado en distribución" cuando se discuten los métodos de agrupación. La regresión lineal hace suposiciones de distribución (que los errores son gaussianos). KNN no hace suposiciones de distribución. Esa es la distinción.
fuente