Leí en alguna parte que la razón por la que cuadramos las diferencias en lugar de tomar valores absolutos al calcular la varianza es que la varianza definida de la manera habitual, con cuadrados en el nominador, juega un papel único en el Teorema del límite central.
Bueno, entonces, ¿cuál es exactamente el papel de la variación en CLT? No pude encontrar más sobre esto, o entenderlo correctamente.
También podríamos preguntar qué nos hace pensar que la varianza es una medida de hasta qué punto se extiende un conjunto de números. Podría definir otras cantidades, similares a la varianza, y convencerlo de que miden la dispersión de los números. Para que esto suceda, tendría que indicar qué se entiende exactamente por dispersión de números, qué comportamiento espera de la medida de propagación, etc. No existe una definición formal de propagación, por lo que podemos tratar la varianza como la definición. Sin embargo, por alguna razón, la varianza se considera "la mejor" medida de propagación.
fuente
Respuestas:
La declaración clásica del Teorema del límite central (CLT) considera una secuencia de variables aleatorias independientes, distribuidas idénticamenteX1,X2, ... ,Xnorte, ... con distribución común F . Esta secuencia modela la situación que enfrentamos al diseñar un programa de muestreo o experimento: si podemos obtenernorte observaciones independientes del mismo fenómeno subyacente, luego la colección finitaX1,X2, ... ,Xnorte modela los datos anticipados. Permitir que la secuencia sea infinita es una forma conveniente de contemplar tamaños de muestra arbitrariamente grandes.
Varias leyes de grandes números afirman que la media
se acercará de cerca a la expectativa deF , μ ( F) , con alta probabilidad, siempre F En realidad tiene una expectativa. (No todas las distribuciones lo hacen). Esto implica la desviaciónm (X1,X2, ... ,Xnorte) - μ ( F) (que, en función de estos norte variables aleatorias, también es una variable aleatoria) tenderá a reducirse a medida que norte aumenta El CLT se suma a esto de una manera mucho más específica: establece (bajo algunas condiciones, que analizaré a continuación) que si volvemos a escalar esta desviación pornorte--√ , tendrá una función de distribución Fnorte que se acerca a alguna función de distribución Normal de media cero comonorte crece grande (Mi respuesta en https://stats.stackexchange.com/a/3904 intenta explicar por qué esto es así y por qué el factor denorte--√ es el correcto para usar.)
Esta no es una declaración estándar del CLT. Vamos a conectarlo con el habitual. Esa distribución normal de media cero limitante estará completamente determinada por un segundo parámetro, que generalmente se elige como una medida de su propagación (¡naturalmente!), Como su varianza o desviación estándar. Dejarσ2 sea su varianza Seguramente debe tener alguna relación con una propiedad similar deF . Para descubrir de qué se trata, dejemosF tener una varianza τ2 --que podría ser infinito, por cierto. Independientemente, porque elXyo son independientes, calculamos fácilmente la varianza de las medias:
En consecuencia, la varianza de los residuos estandarizados es igual aτ2/ n×(norte--√)2=τ2 : es constante La varianza de la distribución normal limitante, entonces, debe serτ2 sí mismo. (Esto muestra inmediatamente que el teorema solo puede sostenerse cuandoτ2 es finito: esa es la suposición adicional que pasé por alto anteriormente).
(Si hubiéramos elegido cualquier otra medida de propagación deF aún podríamos tener éxito en conectarlo a σ2 , pero no habríamos encontrado que la medida correspondiente de propagación de la desviación media estandarizada es constante para todos norte , que es una hermosa, aunque no esencial, simplificación).
Si hubiéramos deseado, podríamos haber estandarizado las desviaciones medias todo el tiempo dividiéndolas porτ así como multiplicarlos por norte--√ . Eso habría asegurado que la distribución limitante es Normal estándar , con varianza unitaria. Ya sea que elija estandarizar porτ de esta manera o no es realmente una cuestión de gustos: es el mismo teorema y la misma conclusión al final. Lo que importaba era la multiplicación pornorte--√ .
Tenga en cuenta que podría multiplicar las desviaciones por algún factor que no seanorte--√ . Podrías usarnorte--√+ exp( - n ) o norte1 / 2 + 1 / n , o cualquier otra cosa que se comporta asintóticamente como norte--√ . Cualquier otra forma asintótica, en el límite, reduciríaσ2 a 0 0 o explotarlo ∞ . Esta observación refina nuestra apreciación del CLT al mostrar hasta qué punto es flexible con respecto a cómo se realiza la estandarización. Es posible que deseemos indicar el CLT, entonces, de la siguiente manera.
Aunque las variaciones están involucradas en la declaración, aparecen solo porque son necesarias para caracterizar la distribución normal limitante y relacionar su propagación con la deF . Este es solo un aspecto incidental. No tiene nada que ver con que la varianza sea "la mejor" en ningún sentido. El quid de la cuestión es el cambio de escala asintótico pornorte--√ .
fuente
La variación NO es esencial para los teoremas del límite central. Es esencial para el iid de principiante de la variedad de jardín, el Teorema del límite central, el que la mayoría de la gente conoce y ama, usa y abusa.
No existe "el" Teorema del límite central, hay muchos teoremas del límite central:
El teorema del límite central de la variedad de jardín para principiantes. Incluso aquí, la elección juiciosa de la norma constante (por lo tanto, una variante avanzada del CLT para principiantes) puede permitir que se demuestren los teoremas del límite central para ciertas variables aleatorias que tienen una varianza infinita (ver Feller Vol. II http://www.amazon.com/Introduction -Probabilidad-Teoría-Aplicaciones-Edición / dp / 0471257095 p. 260).
La matriz triangular Teorema del límite central de Lindeberg-Feller. http://sites.stat.psu.edu/~dhunter/asymp/lectures/p93to100.pdf
https://en.wikipedia.org/wiki/Central_limit_theorem .
El mundo salvaje de cualquier cosa va todo a la vista dependiendo de los teoremas del límite central para los cuales la varianza ni siquiera necesita existir. Una vez probé un teorema del límite central para el que no solo no existía la varianza, sino que tampoco existía la media, y de hecho ni siquiera un momento de 1 - épsilon para épsilon positivo arbitrariamente pequeño. Esa fue una prueba difícil, porque "apenas" convergió, y lo hizo muy lentamente. Asintóticamente convergió a una Normal, en realidad, se necesitaría un tamaño de muestra de millones de términos para que la Normal sea una buena aproximación.
fuente
Cuál es la mejor medida de propagación depende de la situación. La varianza es una medida de propagación que es un parámetro de la distribución normal. Entonces, si modela sus datos con una distribución normal, la media (aritmética) y la varianza empírica son los mejores estimadores (son "suficientes") de los parámetros de esa distribución normal. Eso también da el enlace al teorema del límite central, ya que se trata de un límite normal, es decir, el límite es una distribución normal. Entonces, si tiene suficientes observaciones de que el teorema del límite central es relevante, nuevamente puede usar la distribución normal, y la varianza empírica es la descripción natural de la variabilidad, porque está vinculada a la distribución normal.
Sin este vínculo con la distribución normal, no tiene sentido que la varianza sea la mejor o incluso un descriptor natural de variabilidad.
fuente
Abordar solo la segunda pregunta:
Supongo que la variación ha sido la medida de dispersión elegida por la mayoría de los estadísticos principalmente por razones históricas y luego debido a la inercia de la mayoría de los profesionales no estadísticos.
Aunque no puedo citar de memoria una referencia específica con alguna definición rigurosa de propagación, puedo ofrecer heurística para su caracterización matemática: momentos centrales (es decir,mi[ ( X- μ)k] ) son muy útiles para sopesar las desviaciones del centro de distribución y sus probabilidades / frecuencias, pero solo si k es entero y par.
¿Por qué? Debido a que las desviaciones por debajo del centro (negativas) se resumirán con desviaciones por encima del centro (positivas), en lugar de cancelarlas parcialmente, como lo hace el promedio, por ejemplo. Como puedes pensar, momentos centrales absolutos (es decir,mi( | X- μEl |k) ) también puede hacer ese trabajo y, más aún, para cualquier k > 0 (ok, ambos momentos son iguales si k incluso).
Por lo tanto, una gran cantidad de pequeñas desviaciones (tanto positivas como negativas) con pocas desviaciones grandes son características de poca dispersión, lo que producirá un momento central incluso relativamente pequeño. Muchas desviaciones grandes producirán un momento central incluso relativamente grande.
¿Recuerdas cuando dije sobre las razones históricas anteriores? Antes de que el poder computacional se volviera barato y disponible, uno necesitaba confiar solo en habilidades matemáticas y analíticas para lidiar con el desarrollo de teorías estadísticas.
Los problemas que involucran momentos centrales eran más fáciles de abordar que los que involucran momentos centrales absolutos. Por ejemplo, los problemas de optimización que involucran momentos centrales (p. Ej., Mínimos cuadrados) requieren solo cálculo, mientras que la optimización involucra momentos centrales absolutos conk impar (para k = 1 obtienes un problema simplex), que no se puede resolver solo con cálculo.
fuente