En Elementos de aprendizaje estadístico , se presenta un problema para resaltar problemas con k-nn en espacios de alta dimensión. Hay puntos de datos que están distribuidos uniformemente en una bola de unidad -dimensional.
La distancia media desde el origen hasta el punto de datos más cercano viene dada por la expresión:
Cuando , la fórmula se descompone a la mitad del radio de la pelota, y puedo ver cómo el punto más cercano se acerca al borde como , haciendo que la intuición detrás de knn se rompa en grandes dimensiones. Pero no puedo entender por qué la fórmula depende de N. ¿Podría alguien aclararme?
Además, el libro aborda este problema aún más al afirmar: "... la predicción es mucho más difícil cerca de los bordes de la muestra de entrenamiento. Uno debe extrapolar desde los puntos de muestra vecinos en lugar de interpolar entre ellos". Esto parece una declaración profunda, pero parece que no puedo entender lo que significa. ¿Alguien podría reformular?
fuente
Respuestas:
El volumen de una hiperbola -dimensional de radio tiene un volumen proporcional a .p r rp
Entonces, la proporción del volumen a más de una distancia del origen es .kr rp−(kr)prp=1−kp
La probabilidad de que todos los puntos elegidos al azar son más de una distancia desde el origen es . Para obtener la distancia media al punto aleatorio más cercano, establezca esta probabilidad igual a . EntoncesN kr (1−kp)N 12
Intuitivamente esto hace algún tipo de sentido: los puntos más al azar que hay, cuanto más cerca se espera la más cercana al origen que sea, por lo que debe esperar sea una función decreciente de . Aquí es una función decreciente de , entonces es una función creciente de , y por lo tanto es una función decreciente de como es su raíz .k N 21/N N 121/N N 1−121/N N p
fuente
Y ahora sin agitar la mano
Para cualquier secuencia de iid rv, donde es el CDF común
Por lo tanto, si tenemos iid distribuido uniformemente en la bola unitaria en dimensiones, entonces donde es la CDF común de las distancias, . Finalmente, ¿cuál es el CDF, , para un punto distribuido uniformemente en la bola unitaria en ? La probabilidad de que el punto se encuentre en la bola de radio r dentro de la bola de radio unitario es igual a la relación de volúmenes:N Xi p
Así, la solución a
es
También pregunta sobre la dependencia del tamaño de la muestra, . Para fijo, a medida que la bola se llena con más puntos, naturalmente, la distancia mínima al origen debería ser menor.N p
Finalmente, hay algo mal en su relación de volúmenes. Parece que debería ser el volumen de la bola unidad en .k Rp
fuente
Tan conciso pero en palabras:
Queremos encontrar la distancia media del punto más cercano al origen en puntos distribuidos uniformemente en la bola en el origen del radio unitario en dimensiones. La probabilidad de que la distancia más pequeña exceda , (llame a esta expresión de cantidad [1]) es la potencia de la probabilidad de que un único punto distribuido uniformemente exceda , debido a la independencia estadística. Este último es uno menos la probabilidad de que un único punto distribuido uniformemente sea menor que . La última es la relación de volúmenes de la bola de radio a la bola de radio unitario, o . Ahora podemos escribir la expresión [1] comoN p r Nth r r r rp
Para encontrar la mediana de la distribución del mínimo de las distancias, establezca la probabilidad anterior en y resuelva para , obteniendo la respuesta.1/2 r
fuente