¿Alguien puede explicar que tengo 5 años sobre este problema del ESL Book de Hastie?

9

Estoy trabajando en el libro de ESL de Hastie, y estoy teniendo un momento difícil con la pregunta 2.3. La pregunta es la siguiente:

ingrese la descripción de la imagen aquí

Estamos considerando una estimación vecina más cercana en el origen, y la ecuación indica la distancia media desde el origen hasta el punto de datos más cercano. No tengo idea de por dónde empezar en términos de tratar de derivar esto.

Sé que la mayoría de los puntos de datos están más cerca del límite del espacio muestral que de cualquier otro punto de datos (maldición de dimensionalidad), pero tengo problemas para traducir esto al sentido de Álgebra Lineal / Probabilidad.

¡Gracias!

Gary
fuente
44
¿Qué significa "ELI5" en el título? Si desea derivar esa ecuación, deberá comenzar con un modelo de probabilidad para los puntos en la pelota: ¿cuál es ese modelo? (No requiera que sus lectores se refieran a un libro u otro sitio para comprender su pregunta).
whuber
3
@whuber Estoy de acuerdo: las siglas son un terrible esquema de hashing.
Sycorax dice Reinstate Monica
14
Tienes cinco años Todo el crédito para usted por querer entender ESL, pero tendrá que esperar hasta los seis años. Es un libro para niños y niñas grandes.
Nick Cox
44
Un niño de cinco años podría comenzar observando el caso unidimensional (p = 1). Y una vez que esté en la mano, tómalo desde allí.
Mark L. Stone
3
Si vamos a explicar ELI5, ¿qué pasa con ESL?
mdewey

Respuestas:

15

rV0[p]pr

V[r]=V0[p]rp

P=V[r]/V0[p]R=rp

P[R]=R

0R1RRp[R]=P[R]=1p

RPr[Rρ]=P[ρ]Pr[Rρ]=1P[ρ]Rminn

Pr[Rminρ]=Pr[Rρ]n=(1ρ)n

Por definición de la mediana, tenemos que podemos reescribe como que es equivalente al resultado deseado.

12=Pr[(Rmin)medR]=(1R)n
(1dp)n=12

EDITAR: Intento de respuesta al estilo " ELI5 ", en tres partes.

  1. Para el caso 1D con un solo punto, la distancia se distribuye uniformemente en , por lo que la mediana será .[0,1]12

  2. En 1D, la distribución para el mínimo más de puntos es el primer caso a la potencia -ésima.nn

  3. En dimensiones, la distancia no está distribuida uniformemente, pero .prrp

GeoMatt22
fuente
1
Ja, ja, di el comentario de que un niño de 5 años podría comenzar mirando el caso p = 1. Pensé en agregar un comentario de que un niño de 4 años podría no solo comenzar con el caso p = 1, sino también n = 1. Pero pensé que dejaría que el niño de 5 años descubriera eso.
Mark L. Stone el
1
Tenga en cuenta que cuando respondí la pregunta, fue después de que @fcop lo aclarara para leer: "Considere N puntos de datos distribuidos uniformemente en una bola de unidad p-dimensional centrada en el origen. Muestre que la distancia media desde el origen al el punto de datos más cercano viene dado por ... ". Entonces, una bola unitaria con respecto a la norma en espacio dimensional. Después de esto, la pregunta volvió al original, que difiere y no es tan clara. (Ver cadena de comentarios bajo la pregunta original.)L2p
GeoMatt22