Si tengo un hipercubo de 50 dimensiones. Y defino su límite por o donde es la dimensión del hipercubo. Luego, calcular la proporción de puntos en el límite del hipercubo será . Qué significa eso? ¿Significa que el resto del espacio está vacío? Si el de los puntos están en el límite, entonces los puntos dentro del cubo no deben distribuirse uniformemente.0.95 < x j < 1 x j 0.995 99 %
machine-learning
math
Rohit Kumar Singh
fuente
fuente
Respuestas:
Hablar de de los puntos en un hipercubo ' es un poco engañoso ya que un hipercubo contiene infinitos puntos. Hablemos de volumen en su lugar.99%
El volumen de un hipercubo es el producto de sus longitudes laterales. Para el hipercubo de la unidad de 50 dimensiones, obtenemosTotal volume=1×1×⋯×150 times=150=1.
Ahora, excluyamos los límites del hipercubo y observemos el ' interior ' (pongo esto entre comillas porque el término matemático interior tiene un significado muy diferente). Solo conservamos los puntos que satisfacen ¿Cuál es el volumen de este ' interior '? Bueno, el ' interior ' es nuevamente un hipercubo, y la longitud de cada lado es ( ... ayuda a imaginar esto en dos y tres dimensiones). Entonces el volumen esx=(x1,x2,…,x50) 0.05<x1<0.95 and 0.05<x2<0.95 and … and 0.05<x50<0.95. 0.9 = 0.95 - 0.05 Volumen interior = 0.9 × 0.9 × ⋯ × 0.9 ⏟ 50 veces = 0.9 50 ≈ 0.005. 1 - 0.9 50 ≈ 0.995.0.9 =0.95−0.05 Interior volume=0.9×0.9×⋯×0.950 times=0.950≈0.005.
Concluya que el volumen del ' límite ' (definido como la unidad de hipercubo sin el ' interior ') es1−0.950≈0.995.
Esto muestra que el del volumen de un hipercubo de 50 dimensiones se concentra en su " límite ".99.5%
Seguimiento: Ignacio planteó una pregunta interesante sobre cómo se relaciona esto con la probabilidad. Aquí hay un ejemplo.
Supongamos que se le ocurrió un modelo (de aprendizaje automático) que predice los precios de la vivienda en base a 50 parámetros de entrada. Los 50 parámetros de entrada son independientes y están distribuidos uniformemente entre y .0 1
Digamos que su modelo funciona muy bien si ninguno de los parámetros de entrada es extremo: siempre que cada parámetro de entrada permanezca entre y , su modelo predice el precio de la vivienda casi a la perfección. Pero si uno o más parámetros de entrada son extremos (menores que o mayores que ), las predicciones de su modelo son absolutamente terribles.0.05 0.95 0.05 0.95
Cualquier parámetro de entrada dado es extremo con una probabilidad de solo . Claramente, este es un buen modelo, ¿verdad? ¡No! La probabilidad de que al menos uno de los parámetros sea extremo es Entonces, en el de los casos, la predicción de su modelo es terrible.10% 50 1 - 0.9 50 ≈ 0.995. 99,5 %50 1−0.950≈0.995. 99.5%
Regla de oro: en altas dimensiones, las observaciones extremas son la regla y no la excepción.
fuente
Puede ver el patrón claramente incluso en dimensiones más bajas.
1ra dimensión. Tome una línea de longitud 10 y un límite de 1. La longitud del límite es 2 y la relación interior 8, 1: 4.
2da dimensión. Tome un cuadrado del lado 10 y el límite 1 nuevamente. El área del límite es 36, el interior 64, relación 9:16.
3ra dimensión. Misma longitud y límite. El volumen del límite es 488, el interior es 512, 61:64, ya que el límite ocupa casi tanto espacio como el interior.
4ta dimensión, ahora el límite es 5904 y el interior 4096: el límite ahora es más grande.
Incluso para longitudes de límite cada vez más pequeñas, a medida que la dimensión aumenta, el volumen del límite siempre superará al interior.
fuente
La mejor manera de "entenderlo" (aunque en mi humilde opinión es imposible para un humano) es comparar los volúmenes de una bola n-dimensional y un cubo n-dimensional. Con el crecimiento de n (dimensionalidad), todo el volumen de la pelota "se escapa" y se concentra en las esquinas del cubo. Este es un principio general útil para recordar en la teoría de la codificación y sus aplicaciones.
La mejor explicación del libro de texto se encuentra en el libro de Richard W. Hamming "Teoría de la codificación y la información" (3.6 Enfoque geométrico, p. 44).
El breve artículo en Wikipedia le dará un breve resumen del mismo si tiene en cuenta que el volumen de un cubo de unidad n-dimensional es siempre 1 ^ n.
Espero que sea de ayuda.
fuente