Específicamente, estoy buscando referencias (documentos, libros) que muestren y expliquen rigurosamente la maldición de la dimensionalidad. Esta pregunta surgió después de que comencé a leer este libro blanco de Lafferty y Wasserman. En el tercer párrafo mencionan una ecuación "bien conocida" que implica que la mejor tasa de convergencia es ; si alguien puede exponer sobre eso (y explicarlo), eso sería muy útil.
Además, ¿alguien puede señalarme una referencia que derive la ecuación "bien conocida"?
Respuestas:
Siguiendo con richiemorrisroe, aquí está la imagen relevante de los Elementos del aprendizaje estadístico , capítulo 2 (pp22-27):
Como puede ver en el panel superior derecho, hay más vecinos a 1 unidad de distancia en 1 dimensión que vecinos a 1 unidad de distancia en 2 dimensiones. ¡3 dimensiones serían aún peores!
fuente
Esto no responde su pregunta directamente, pero David Donoho tiene un buen artículo sobre Análisis de datos de alta dimensión: Las maldiciones y bendiciones de la dimensionalidad (las diapositivas asociadas están aquí ), en las que menciona tres maldiciones:
fuente
Sé que sigo refiriéndome a él, pero hay una gran explicación de esto en Elementos del aprendizaje estadístico , capítulo 2 (pp22-27). Básicamente señalan que a medida que aumentan las dimensiones, la cantidad de datos debe aumentar (exponencialmente) con ella o no habrá suficientes puntos en el espacio muestral más grande para que se pueda realizar un análisis útil.
Se refieren a un artículo de Bellman (1961) como su fuente, que parece ser su libro Adaptive Control Processes, disponible en Amazon aquí.
fuente
Quizás el impacto más notorio es capturado por el siguiente límite (que se ilustra (indirectamente) en la imagen de arriba):
Impacto de la dimensionalidad en los datos en imágenes
fuente