Métodos no paramétricos como K-Nearest-Neighbours en High Dimensional Feature Space

11

La idea principal de k-Nearest-Neighbor tiene en cuenta los puntos más cercanos y decide la clasificación de los datos por mayoría de votos. Si es así, entonces no debería tener problemas en los datos de dimensiones superiores porque los métodos como el hashing sensible a la localidad pueden encontrar vecinos más cercanos de manera eficiente.k

Además, la selección de funciones con redes bayesianas puede reducir la dimensión de los datos y facilitar el aprendizaje.

Sin embargo, este artículo de revisión de John Lafferty en aprendizaje estadístico señala que el aprendizaje no paramétrico en espacios de características de alta dimensión sigue siendo un desafío y está sin resolver.

¿Qué va mal?

Strin
fuente
1
Por favor proporcione una referencia completa para el trabajo; los autores no parecen aparecer (prominentemente) en el mismo.
Raphael

Respuestas:

5

Este problema se conoce como la maldición de la dimensionalidad . Básicamente, a medida que aumenta el número de dimensiones, , los puntos en el espacio generalmente tienden a alejarse de todos los demás puntos. Esto hace que la partición del espacio (como es necesario para la clasificación o agrupamiento) sea muy difícil.d

Puedes ver esto por ti mismo muy fácilmente. Generé puntos dimensionales aleatorios en el hipercubo de la unidad en 20 valores de seleccionados uniformemente entre . Para cada valor de calculé la distancia desde el primer punto a todos los demás y tomé el promedio de estas distancias. Al trazar esto, podemos ver que la distancia promedio aumenta con la dimensionalidad, aunque el espacio en el que estamos generando los puntos en cada dimensión sigue siendo el mismo.d d 1..1000 d50dd1..1000d

Distancia promedio vs. dimensionalidad

Mella
fuente
Por supuesto. Aumenta el número de puntos en una hiperesfera de radio fijo exponencialmente en la dimensionalidad, por lo que si elige 50 puntos de manera uniforme al azar, esto tiene que suceder. Por lo tanto, si su razonamiento es correcto, la partición debería ser fácil si tengo muchas muestras; ¿Es eso así?
Raphael
Creo que lo has revertido. Al aumentar la dimensionalidad, REDUCO el número de puntos dentro de una hiperesfera. Particionar se vuelve más difícil porque la medida de la distancia esencialmente pierde su significado (por ejemplo, todo está muy lejos).
Nick
Quise decir: El número total de puntos en una hiperesfera de radio en say , es deciraumenta con . N n | N nS n ( k ) | nortekNn|NnSn(k)|n
Raphael
También tenga en cuenta que lo que las personas quieren decir cuando se refieren al espacio de características de alta dimensión es que el número de muestras, , es mucho menor que la dimensionalidad de cada punto, , ( ). Entonces, en estos problemas, asume que NO tiene 'muchas muestras'. d n < < dndn<<d
Nick
No veo que esto se mantenga por definición; Sin embargo, parece ser una convención basada en la experiencia.
Raphael
3

No es una respuesta completa, pero la página de Wikipedia que citó dice:

La precisión del algoritmo k-NN puede verse gravemente degradada por la presencia de características ruidosas o irrelevantes, o si las escalas de características no son consistentes con su importancia.

La probabilidad de que esto ocurra aumenta en presencia de espacios de características de alta dimensión.

Dave Clarke
fuente
Pero creo que con PCA (análisis de componentes principales) o cualquier otro método para reducir la dimensionalidad y eliminar datos irrelevantes, k-NN aún puede funcionar. Y lo que significan las páginas de Wikipedia es que el ingenuo k-NN fallará. Entonces esto no explica el artículo de revisión.
Strin
PCA ciertamente puede funcionar, pero no en todas las situaciones.
Dave Clarke