La pregunta que quiero hacer es esta: ¿cómo varía la proporción de muestras dentro de 1 SD de la media de una distribución normal a medida que aumenta el número de variables?
(Casi) todos saben que en una distribución normal unidimensional, el 68% de las muestras se pueden encontrar dentro de 1 desviación estándar de la media. ¿Qué pasa en 2, 3, 4, ... dimensiones? Sé que se pone menos ... pero ¿por cuánto (precisamente)? Sería útil tener una tabla que muestre las cifras de 1, 2, 3 ... 10 dimensiones, así como 1, 2, 3 ... 10 SD. ¿Alguien puede señalar una mesa así?
Un poco más de contexto: tengo un sensor que proporciona datos en hasta 128 canales. Cada canal está sujeto a ruido eléctrico (independiente). Cuando percibo un objeto de calibración, puedo promediar un número suficiente de mediciones y obtener un valor medio en los 128 canales, junto con 128 desviaciones estándar individuales.
PERO ... cuando se trata de las lecturas instantáneas individuales, los datos no responden tanto como 128 lecturas individuales, sino como una sola lectura de una cantidad de vector (hasta) 128-dimensonal. Ciertamente, esta es la mejor manera de tratar las pocas lecturas críticas que tomamos (generalmente 4-6 de las 128).
Quiero tener una idea de lo que es la variación "normal" y lo que es "atípico" en este espacio vectorial. Estoy seguro de que he visto una tabla como la que describí que se aplicaría a este tipo de situación. ¿Alguien puede señalar una?
Respuestas:
TomemosX= ( X1, ... , Xre) ∼ N( 0 , yo) : cada es normal N ( 0 , 1 ) y la X i son independientes, supongo que eso es lo que quieres decir con dimensiones más altas.Xyo norte( 0 , 1 ) Xyo
Diría que está dentro de 1 sd de la media cuando | El | X | El | < 1 (la distancia entre X y su valor medio es inferior a 1). Ahora | El | X | El | 2 = X 2 1 + ⋯ + X 2 d ∼ χ 2 ( d )X El | El | XEl | El | <1 El | El | XEl | El |2= X21+ ⋯ + X2re∼ χ2( d) así que esto sucede con la probabilidad donde ξ ∼ χ 2 ( d )P(ξ<1) ξ∼χ2(d) . Puedes encontrar esto en buenas mesas de chi cuadrado ...
Aquí hay algunos valores:
Y para 2 sd:
Usted puede obtener estos valores en R con commads como
pchisq(1,df=1:10)
,pchisq(4,df=1:10)
, etc.Post Scriptum Como el cardenal señaló en los comentarios, uno puede estimar el comportamiento asintótico de estas probabilidades. El CDF de un variable ( d ) es F d ( x ) = P ( d / 2 , x / 2 ) = γ ( d / 2 , x / 2 )χ2( d)
dondeγ(s,y)=∫y0ts-1e-tdtes laincompletaγ-Función, y clásicamenteΓ(s)=∫∞0
Cuando es un número entero, la integración repetida por partes muestra que P ( s , y ) = e - y ∞s
que es la cola del CDF de la distribución de Poisson.
Ahora esta suma está dominada por su primer término (muchas gracias al cardenal):P(s,y)∼yss!e−y s d
fuente