Estoy leyendo el libro de Kevin Murphy: Aprendizaje automático: una perspectiva probabilística. En el primer capítulo, el autor explica la maldición de la dimensionalidad y hay una parte que no entiendo. Como ejemplo, el autor afirma:
Considere que las entradas están distribuidas uniformemente a lo largo de un cubo de unidad D-dimensional. Supongamos que estimamos la densidad de las etiquetas de clase haciendo crecer un hipercubo alrededor de x hasta que contenga la fracción deseada de los puntos de datos. La longitud de borde esperada de este cubo es .
Es la última fórmula que no puedo entender. parece que si desea cubrir, digamos que el 10% de los puntos que la longitud del borde debe ser 0.1 a lo largo de cada dimensión? Sé que mi razonamiento está mal, pero no puedo entender por qué.
fuente
Respuestas:
Ese es precisamente el comportamiento inesperado de las distancias en altas dimensiones. Para 1 dimensión, tiene el intervalo [0, 1]. El 10% de los puntos están en un segmento de longitud 0.1. Pero, ¿qué sucede a medida que aumenta la dimensionalidad del espacio de características?
Esa expresión te dice que si quieres tener ese 10% de los puntos para 5 dimensiones, debes tener una longitud para el cubo de 0,63, en 10 dimensiones de 0,79 y 0,98 para 100 dimensiones.
Como puede ver, para aumentar las dimensiones necesita mirar más lejos para obtener la misma cantidad de puntos. Aún más, te dice que la mayoría de los puntos están en el límite del cubo a medida que aumenta el número de dimensiones. Lo cual es inesperado.
fuente
Creo que lo principal a notar es que la expresión
es realmente muy empinado al principio. Esto significa que el tamaño del borde que necesitará para abarcar una cierta fracción del volumen aumentará drásticamente, especialmente al principio. es decir, el borde que necesita se volverá ridículamente grande a medida que aumente.re
Para aclarar esto aún más, recuerda la trama que muestra Murphy:
si observa, para valores de , la pendiente es realmente grande y, por lo tanto, la función crece realmente abruptamente al principio. Esto se puede apreciar mejor si toma la derivada de e D ( f ) :D > 1 mire( f)
fuente
Sí, así que si tiene un cubo unitario, o en su caso una línea unitaria, y los datos están distribuidos uniformemente, entonces tiene que recorrer una longitud de 0.1 para capturar el 10% de los datos. Ahora, a medida que aumenta las dimensiones, D aumenta, lo que disminuye el poder yf siendo menor que 1, aumentará, de modo que si D llega al infinito, tendrá que capturar todo el cubo, e = 1.
fuente
Creo que para kNN la distancia juega un papel más importante. Lo que le sucede a un cubo (hiper) es análogo a lo que le sucede a la distancia entre puntos. A medida que aumenta el número de dimensiones, aumenta la relación entre la distancia más cercana a la distancia promedio; esto significa que el punto más cercano está casi tan lejos como el punto promedio, entonces tiene solo un poco más de poder predictivo que el punto promedio. Este artículo lo explica muy bien
fuente