En 1999, Beyer et al. preguntó: ¿ Cuándo es significativo el "vecino más cercano"?
¿Existen mejores formas de analizar y visualizar el efecto de la planitud de distancia en la búsqueda de NN desde 1999?
¿El conjunto de datos [un determinado] proporciona respuestas significativas al problema 1-NN? El problema de 10 NN? El problema de 100 NN?
¿Cómo abordarían ustedes hoy esta pregunta?
Ediciones lunes 24 de enero:
¿Qué tal "distancia blanca" como un nombre más corto para "distancia plana con dimensión creciente"?
Una manera fácil de ver el "distanciamiento de distancia" es correr 2-NN y trazar distancias al vecino más cercano y al segundo vecino más cercano. La siguiente gráfica muestra dist 1 y dist 2 para un rango de nclusters y dimensiones, de Monte Carlo. Este ejemplo muestra un contraste de distancia bastante bueno para la diferencia absoluta escalada | dist 2 - dist 1 |. (Las diferencias relativas | dist 2 / dist 1 | → 1 como dimensión → ∞, se vuelven inútiles.)
Si los errores absolutos o los errores relativos deben usarse en un contexto dado depende, por supuesto, del ruido "real" presente: difícil.
Sugerencia: siempre ejecute 2-NN; 2 vecinos son útiles cuando están cerca, y útiles cuando no.
Respuestas:
No tengo una respuesta completa a esta pregunta, pero puedo dar una respuesta parcial sobre algunos de los aspectos analíticos. Advertencia: He estado trabajando en otros problemas desde el primer artículo a continuación, por lo que es muy probable que haya otras cosas buenas que no conozco.
Primero, creo que vale la pena señalar que, a pesar del título de su artículo "Cuando el 'vecino más cercano' es significativo", Beyer et al respondieron una pregunta diferente, es decir, cuándo NN no es significativo. Probamos lo contrario a su teorema, bajo algunos supuestos leves adicionales sobre el tamaño de la muestra, en When Is 'Nearest Neighbour' Significativo: un teorema inverso y sus implicaciones. Journal of Complexity, 25 (4), agosto de 2009, págs. 385-397.y demostró que hay situaciones en las que (en teoría) la concentración de distancias no surgirá (damos ejemplos, pero en esencia el número de características sin ruido debe crecer con la dimensionalidad, por lo que, por supuesto, rara vez surgen en la práctica). Las referencias 1 y 7 citadas en nuestro artículo dan algunos ejemplos de formas en que la concentración de distancia puede mitigarse en la práctica.
Un artículo de mi supervisor, Ata Kaban, analiza si estos problemas de concentración a distancia persisten a pesar de aplicar técnicas de reducción de dimensionalidad en Conocimiento de concentración a distancia de ciertas técnicas de reducción de datos. Reconocimiento de patrones. Vol. 44, número 2, febrero de 2011, págs. 265-277. . Hay una buena discusión allí también.
fuente
También podría estar interesado en el análisis de componentes de vecindario por Goldberger et al.
Aquí, se aprende una transformación lineal para maximizar los puntos clasificados correctamente esperados a través de una selección estocástica del vecindario más cercano.
Como efecto secundario, el número (esperado) de vecinos se determina a partir de los datos.
fuente