Densidad de distribución normal a medida que aumentan las dimensiones.

15

La pregunta que quiero hacer es esta: ¿cómo varía la proporción de muestras dentro de 1 SD de la media de una distribución normal a medida que aumenta el número de variables?

(Casi) todos saben que en una distribución normal unidimensional, el 68% de las muestras se pueden encontrar dentro de 1 desviación estándar de la media. ¿Qué pasa en 2, 3, 4, ... dimensiones? Sé que se pone menos ... pero ¿por cuánto (precisamente)? Sería útil tener una tabla que muestre las cifras de 1, 2, 3 ... 10 dimensiones, así como 1, 2, 3 ... 10 SD. ¿Alguien puede señalar una mesa así?

Un poco más de contexto: tengo un sensor que proporciona datos en hasta 128 canales. Cada canal está sujeto a ruido eléctrico (independiente). Cuando percibo un objeto de calibración, puedo promediar un número suficiente de mediciones y obtener un valor medio en los 128 canales, junto con 128 desviaciones estándar individuales.

PERO ... cuando se trata de las lecturas instantáneas individuales, los datos no responden tanto como 128 lecturas individuales, sino como una sola lectura de una cantidad de vector (hasta) 128-dimensonal. Ciertamente, esta es la mejor manera de tratar las pocas lecturas críticas que tomamos (generalmente 4-6 de las 128).

Quiero tener una idea de lo que es la variación "normal" y lo que es "atípico" en este espacio vectorial. Estoy seguro de que he visto una tabla como la que describí que se aplicaría a este tipo de situación. ¿Alguien puede señalar una?

omatai
fuente
Por favor, ¿puedo tener solo respuestas empíricas? No entiendo la mayoría de la notación matemática.
omatai

Respuestas:

19

Tomemos X=(X1,,Xd)N(0,I) : cada es normal N ( 0 , 1 ) y la X i son independientes, supongo que eso es lo que quieres decir con dimensiones más altas.XiN(0,1)Xi

Diría que está dentro de 1 sd de la media cuando | El | X | El | < 1 (la distancia entre X y su valor medio es inferior a 1). Ahora | El | X | El | 2 = X 2 1 + + X 2 dχ 2 ( d )X||X||<1||X||2=X12++Xd2χ2(d) así que esto sucede con la probabilidad donde ξ χ 2 ( d )P(ξ<1)ξχ2(d). Puedes encontrar esto en buenas mesas de chi cuadrado ...

Aquí hay algunos valores:

rePAG(ξ<1)10,6820,393 30,204 40,0905 50,0376 60,0147 70.005280.00189 90.00056100.00017

Y para 2 sd:

rePAG(ξ<4 4)10,9520,863 30,744 40,595 50,456 60,327 70,2280,149 90,089100,053

Usted puede obtener estos valores en R con commads como pchisq(1,df=1:10), pchisq(4,df=1:10), etc.

Post Scriptum Como el cardenal señaló en los comentarios, uno puede estimar el comportamiento asintótico de estas probabilidades. El CDF de un variable ( d ) es F d ( x ) = P ( d / 2 , x / 2 ) = γ ( d / 2 , x / 2 )χ2(re) dondeγ(s,y)=y0ts-1e-tdtes laincompletaγ-Función, y clásicamenteΓ(s)=0

Fre(X)=PAG(re/ /2,X/ /2)=γ(re/ /2,X/ /2)Γ(re/ /2)
γ(s,y)=0 0yts-1mi-tretγ .Γ(s)=0ts1etdt

Cuando es un número entero, la integración repetida por partes muestra que P ( s , y ) = e - y s que es la cola del CDF de la distribución de Poisson.

P(s,y)=eyk=sykk!,

Ahora esta suma está dominada por su primer término (muchas gracias al cardenal): P(s,y)yss!eysd

P(ξ<x)=P(d/2,x/2)1(d/2)!(x2)d/2ex/21πde12(dx)(xd)d21πe12xd12d,
dd
Elvis
fuente
¡Bienvenido a nuestro sitio, Elvis! Buena respuesta. (+1)
whuber
1
(+1) Buena respuesta. Aquí hay un par de sugerencias para su consideración: ( 1 ) Podría ser útil hacer explícito quéξre
Gracias por tus comentarios. ¡No pensé que esta respuesta recibiría mucha atención! Es cierto que esta es una buena forma de la maldición de la dimensionalidad ... @cardinal acerca de (3) No conozco ningún equivalente asintótico de la función gamma incompleta cuando los primeros parámetros van al infinito, el segundo está arreglado, esto ¡no es fácil! Se podría hacer una majoración áspera, puedo escribir eso más tarde.
Elvis
2
rere=2kZyo=X2yo-12+X2yo2miXpag(1/ /2)X2=yo=1kZyo. Pero entoncesX2 es justo el tiempo hasta que el kRenovación de un proceso de Poisson con tasa 1/2. EntoncesPAG(X2<1)=PAG(norte1/ /2(0 0,1)k)=mi-1/ /2X=k2-X/ /X!. La cola del Poisson está dominada por el término principal, por lo quePAG(X2<1)mi-1/ /22-k/ /Γ(k+1) como re (De nuevo: k=re/ /2)
cardenal
1
Parte del punto del comentario anterior es que obtenemos una respuesta exacta para todos, inclusore. Además, usando la aproximación de Stirling, obtenemos quePAG(X2<1)mi-1/ /22-k/ /Γ(k+1)mi(re-1)/ /2re-(re+1)/ /2/ /π.
cardenal