Donde hace

36

Una versión muy simple del teorema limitado central como se muestra a continuación que es Lindeberg – Lévy CLT. No entiendo por qué hay un en el lado izquierdo. Y Lyapunov CLT dice pero por qué no ? ¿Alguien me diría cuáles son estos factores, como y ? ¿Cómo los conseguimos en el teorema?

n((1ni=1nXi)μ) d N(0,σ2)
1n
1sni=1n(Xiμi) d N(0,1)
sn 1n1sn
Cerdo volador
fuente
3
Esto se explica en stats.stackexchange.com/questions/3734 . Esa respuesta es larga, porque pide "intuición". Sin embargo, concluye: "Sin embargo, esta simple aproximación sugiere cómo De Moivre podría haber sospechado originalmente que existe una distribución limitante universal, que su logaritmo es una función cuadrática y que el factor de escala apropiado debe ser proporcional a ... " snn
whuber
1
Intuitivamente, si todo entonces y la segunda línea se sigue de la primera línea: dividir por (por supuesto, la condición de Lyapunov, combinación desactivada all , es otra pregunta)σi=σsn=σi2=nσ
n((1ni=1nXi)μ)=1ni=1n(Xiμ)d N(0,σ2)
σ=snnσ i
1norteyo=1norte(Xyo-μ)snortenorte=1snorteyo=1norte(Xyo-μyo)re norte(0 0,1)
σyo
Sextus Empiricus

Respuestas:

33

Buena pregunta (+1) !!

Recordará que para las variables aleatorias independientes e , y . Entonces, la varianza de es , y la varianza de es .Y V a r ( X + Y ) = V a r ( X ) + V a r ( Y ) V a r ( a X ) = a 2V a r ( X ) n i = 1 X i n i = 1 σ 2 = n σ 2 ˉXYVunar(X+Y)=Vunar(X)+Vunar(Y)Vunar(unaX)=una2Vunar(X)yo=1norteXyoyo=1norteσ2=norteσ2nσ2/n2=σ2/nX¯=1norteyo=1norteXyonorteσ2/ /norte2=σ2/ /norte

Esto es para la varianza . Para estandarizar una variable aleatoria, la divide por su desviación estándar. Como sabe, el valor esperado de es , por lo que la variable μX¯μ

N(0,

X¯-mi(X¯)Vunar(X¯)=norteX¯-μσ
tiene el valor esperado 0 y la varianza 1. Entonces, si tiende a ser gaussiano, tiene que ser el gaussiano estándar . Su formulación en la primera ecuación es equivalente. Al multiplicar el lado izquierdo por , establece la varianza en .σ σ 2norte(0 0,1)σσ2

Con respecto a su segundo punto, creo que la ecuación que se muestra arriba ilustra que debe dividir entre y no para estandarizar la ecuación, explicando por qué usa (el estimador de y no .σ snσ)σsnorteσ)snorte

Adición: @whuber sugiere discutir el por qué del escalado por . Lo hace allí , pero como la respuesta es muy larga, intentaré captar el sentido de su argumento (que es una reconstrucción de los pensamientos de De Moivre).norte

Si agrega un gran número de + 1 y -1, puede aproximar la probabilidad de que la suma sea por conteo elemental. El registro de esta probabilidad es proporcional a . Entonces, si queremos que la probabilidad anterior converja a una constante a medida que aumenta, tenemos que usar un factor de normalización en .j - j 2 / n n O ( nortej-j2/ /nortenorteO(norte)

Usando herramientas matemáticas modernas (post de Moivre), puede ver la aproximación mencionada anteriormente al notar que la probabilidad buscada es

PAGS(j)=(nortenorte/ /2+j)2norte=norte!2norte(norte/ /2+j)!(norte/ /2-j)!

que aproximamos por la fórmula de Stirling

PAGS(j)nortenorteminorte/ /2+jminorte/ /2-j2norteminorte(norte/ /2+j)norte/ /2+j(norte/ /2-j)norte/ /2-j=(11+2j/ /norte)norte+j(11-2j/ /norte)norte-j.

Iniciar sesión(PAGS(j))=-(norte+j)Iniciar sesión(1+2j/ /norte)-(norte-j)Iniciar sesión(1-2j/ /norte)-2j(norte+j)/ /norte+2j(norte-j)/ /norte-j2/ /norte.
gui11aume
fuente
Por favor, vea mis comentarios a respuestas anteriores de Michael C. y chico.
whuber
Parece que la primera ecuación (LL CLT) s / b ? Eso me confundió también que apareció como la varianza. σ 2norte((1norteyo=1norteXyo)-μ) re norte(0 0,1)σ2
B_Miner
Si parametriza el gaussiano con media y varianza (no desviación estándar), entonces creo que la fórmula de OP es correcta.
gui11aume
1
Ahh..Dado que si multiplicamos por obtenemos lo que mostró OP ( cancel): a saber, . Pero sabemos que VAR (aX) = a ^ 2Var (X) donde en este caso a = y Var (X) es 1, entonces la distribución es . ˉ X - E ( ˉ X )X¯-mi(X¯)Vunar(X¯)=norteX¯-μσre norte(0 0,1) σσX¯-mi(X¯)Vunar(X¯)σσσ2N(0,norte((1norteyo=1norteXyo)-μ)σ2norte(0 0,σ2)
B_Miner
Gui, si no es demasiado tarde, quería asegurarme de tener esto correcto. Si suponemos y multiplicamos por una constante ( ), el valor esperado de esta cantidad (es decir, ), que era cero, sigue siendo cero como E [aX] = a * E [X] => * 0 = 0. ¿Es esto correcto? σ X¯E(X¯)Var(X¯)=n(X¯μ)d N(0,1)σσnorte(X¯-μ)σ
B_Miner
8

Existe una buena teoría sobre qué tipo de distribuciones pueden ser distribuciones limitantes de sumas de variables aleatorias. El buen recurso es el siguiente libro de Petrov, que personalmente disfruté inmensamente.

Resulta que si está investigando límites de este tipo donde son variables aleatorias independientes, las distribuciones de límites son solo ciertas distribuciones.X i

1ani=1nXnbn,(1)
Xi

Hay muchas matemáticas dando vueltas entonces, lo que se traduce en varios teoremas que caracterizan completamente lo que sucede en el límite. Uno de esos teoremas se debe a Feller:

Teorema Sea una secuencia de variables aleatorias independientes, sea ​​la función de distribución de , y sea ​​una secuencia de constante positiva. Para queV n ( x ) X n a n{Xn;n=1,2,...}Vn(x)Xnanorte

max1knortePAGS(El |XkEl |εunanorte)0 0, por cada fijo ε>0 0

y

cenarXEl |PAGS(unanorte-1k=1norteXk<X)-Φ(X)El |0 0

es necesario y suficiente que

k=1norteEl |XEl |εunanortereVk(X)0 0 por cada fijo ε>0 0,

unanorte-2k=1norte(El |XEl |<unanorteX2reVk(X)-(El |XEl |<unanorteXreVk(X))2)1

y

unanorte-1k=1norteEl |XEl |<unanorteXreVk(X)0.

Este teorema te da una idea de cómo debería ser .unanorte

La teoría general en el libro está construida de tal manera que la constante de normas está restringida de alguna manera, pero los teoremas finales que dan las condiciones necesarias y suficientes no dejan espacio para la constante de normas distintas de .norte

mpiktas
fuente
4

s representa la desviación estándar de la muestra para la media muestral. s es la varianza muestral para la media muestral y es igual a S / n. Donde S es la estimación muestral de la varianza de la población. Dado que s = S / √n eso explica cómo aparece √n en la primera fórmula. Tenga en cuenta que habría un σ en el denominador si el límite fueran 2 n 2 n 2 n nnortenorte2norte2norte2nortenorte

N (0,1) pero el límite se da como N (0, σ ). Como S es una estimación consistente de σ, se usa en la segunda ecuación para sacar σ del límite.n2norte

Michael R. Chernick
fuente
¿Qué pasa con la otra parte (más básica e importante) de la pregunta: ¿por qué y no alguna otra medida de dispersión? snorte
whuber
@whuber Eso puede estar en discusión pero no fue parte de la pregunta. El OP solo quería saber por qué s y √n aparecen en la fórmula para el CLT. Por supuesto, S está ahí porque es consistente para σ y en esa forma de CLT se elimina σ. nnortenorte
Michael R. Chernick
1
Para mí no está nada claro que esté presente porque es "consistente para ". ¿Por qué eso no implica también, digamos, que debería usarse para normalizar estadísticas de valor extremo (que no funcionaría)? ¿Me estoy perdiendo algo simple y evidente? Y, para repetir el OP, ¿por qué no usar todo, eso es consistente para ! σ s n snorteσsnortesnorteσ
whuber
El teorema como se indica tiene convergencia a N (0,1), por lo que para lograr eso, o bien debe conocer σ y usarlo, o usar una estimación consistente que funcione según el teorema de Slutsky, creo. ¿No estaba claro?
Michael R. Chernick
No creo que estuvieras claro; Solo creo que puede faltar un punto importante. Después de todo, para muchas distribuciones podemos obtener una distribución normal limitante usando el IQR en lugar de pero el resultado no es tan claro (la SD de la distribución limitante depende de la distribución con la que comenzamos). Solo estoy sugiriendo que esto merece ser llamado y explicado. ¡No será tan obvio para alguien que no tiene la intuición desarrollada por 40 años de estandarizar todas las distribuciones que encuentran! snorte
whuber
2

Intuitivamente, si para algunos deberíamos esperar que sea ​​aproximadamente igual a ; Parece una expectativa bastante razonable, aunque no creo que sea necesario en general. La razón de en la primera expresión es que la varianza de va a como y entonces está inflando la varianza para que la expresión solo tenga una varianza igual a . En la segunda expresión, el término se define comoσ 2 Var ( Z n ) σ 2 ZnN(0,σ2)σ2Var(Znorte)σ2ˉ X n-μ0 1norteX¯norte-μ0 01norte σ2snnorteσ2snorte n i = 1 Var(Xi)1yo=1norteVar(Xyo)mientras que la varianza del numerador crece como , entonces nuevamente tenemos que la varianza de la expresión completa es una constante ( en este caso).yo=1norteVar(Xyo)1

Esencialmente, sabemos que algo "interesante" está sucediendo con la distribución de , pero si no lo adecuadamente, no podremos verlo. He escuchado que esto se describe a veces como la necesidad de ajustar el microscopio. Si no explotamos (por ejemplo) by entonces solo tenemos en distribución por la ley débil; Un resultado interesante en sí mismo pero no tan informativo como el CLT. Si inflamos por algún factor que está dominado por , todavía obtenemos mientras que cualquier factor que domina ˉ X -μX¯norte: =1norteyoXyoX¯-μˉ X n-μ0annorteX¯norte-μ0 0unanorte an( ˉ X n-μ)0annorteunanorte(X¯norte-μ)0 0unanorte an( ˉ X n-μ)norteda . Resulta que es el aumento correcto para poder ver lo que está sucediendo en este caso (nota: toda la convergencia aquí está en distribución; hay otro nivel de aumento que es interesante para una convergencia casi segura, lo que da lugar a a la ley del logaritmo iterado).unanorte(X¯norte-μ)norte

chico
fuente
44
Una pregunta más fundamental, que debe abordarse primero, es por qué el SD se utiliza para medir la dispersión. ¿Por qué no el momento central absoluto para algún otro valor de ? ¿O por qué no el IQR o alguno de sus parientes? Una vez que se contesta, a continuación propiedades simples de covarianza de inmediato dan la dependencia (como @ Gui11aume ha explicado recientemente.) k kthknorte
whuber
1
@whuber Estoy de acuerdo, por eso presenté esto como heurístico. No estoy seguro de que sea susceptible de una explicación simple, aunque me encantaría escucharla. Para mí, no estoy seguro de tener una razón más simple y explicable en el pasado "porque el término cuadrado es el término relevante en la expansión de Taylor de la función característica una vez que resta la media".
chico