Valor que aumenta la desviación estándar

12

Me sorprende la siguiente declaración:

"Para aumentar la desviación estándar de un conjunto de números, debe agregar un valor que esté a más de una desviación estándar de la media"

¿Cuál es la prueba de eso? Por supuesto, sé cómo definimos la desviación estándar, pero esa parte parece que de alguna manera me la pierdo. ¿Algún comentario?

JohnK
fuente
1
¿Has tratado de resolver el álgebra involucrado?
Alecos Papadopoulos
Sí tengo. He restado la varianza de la muestra de n valores de la varianza de n + 1 valores y he requerido que la diferencia sea mayor que cero. Sin embargo, no puedo entenderlo.
JohnK
3
Una de las formas más simples es diferenciar el algoritmo de Welford con respecto al nuevo valor y luego integrarlo para mostrar que si la introducción de aumenta la varianza, entonces donde es la media de los primeros valores y es su estimación de varianza. x n ( x n - ˉ x n - 1 ) 2nxnxn ˉ x n-1n-1vn-1(xnx¯n1)2nn1vn1x¯n1n1vn1
whuber
Está bien, pero ¿se puede mostrar esto con álgebra simple quizás? Mi conocimiento de las estadísticas no es tan avanzado.
JohnK
@JohnK, ¿podría compartir la fuente de la cotización?
Pe Dro

Respuestas:

20

Para cualquier número con media , la varianza viene dada por Aplicar para el conjunto dado de números que tomamos por conveniencia en la exposición para tener media , tenemos que y 1 , y 2 , ... , y N ˉ y = 1Ny1,y2,,yN σ 2y¯=1Ni=1Nyi(1)nx1,x2,xnˉx=0σ2=1

σ2=1N1i=1N(yiy¯)2=1N1i=1N(yi22yiy¯+y¯2)=1N1[(i=1Nyi2)2N(y¯)2+N(y¯)2](1)σ2=1N1i=1N(yi2(y¯)2)
(1)nx1,x2,xnx¯=0 xn+11
σ2=1n1i=1n(xi2(x¯)2)=1n1i=1nxi2
Si ahora agregamos una nueva observación a este conjunto de datos, entonces la nueva media del conjunto de datos es mientras que la nueva varianza es Entoncesnecesita ser más grande quexn+1σ 2
1n+1i=1n+1xi=nx¯+xn+1n+1=xn+1n+1
El | xn+1| σ
σ^2=1ni=1n+1(xi2xn+12(n+1)2)=1n[((n1)σ2+xn+12)xn+12n+1]=1n[(n1)σ2+nn+1xn+12]>σ2 only if xn+12>n+1nσ2.
|xn+1| xn+1ˉxσσ1+1n o, más generalmente, necesita diferir de la media del conjunto de datos original en más de , para que el conjunto de datos aumentados tenga una varianza mayor que el conjunto de datos original. Véase también la respuesta de Ray Koopman, que señala que la nueva varianza es mayor, igual o menor que la varianza original según difiere de la media en más que, exactamente o menos que .xn+1x¯ xn+1σσ1+1nxn+1σ1+1n
Dilip Sarwate
fuente
55
+1 Finalmente alguien lo hace bien ... ;-) La afirmación a probar es correcta; Simplemente no es apretado. Por cierto, también puede elegir sus unidades de medida para hacer , lo que simplifica aún más el cálculo, reduciéndolo a aproximadamente dos líneas. σ2=1
whuber
Le sugiero que use S en lugar de sigma en el primer conjunto de ecuaciones y gracias por la derivación. Fue bueno saber :)
Theoden
3

La declaración desconcertante proporciona una condición necesaria pero insuficiente para que aumente la desviación estándar. Si el tamaño de la muestra anterior es , la media anterior es , la desviación estándar anterior es , y se agrega un nuevo punto a los datos, entonces la nueva desviación estándar será menor, igual o mayor que según comoes menor que, igual o mayor que .m s x s | x - m | s nmsxs|xm|s1+1/n

Ray Koopman
fuente
1
¿Tienes una prueba a mano?
JohnK
2

Dejando de lado el álgebra (que también funciona) piense de esta manera: la desviación estándar es la raíz cuadrada de la varianza. La varianza es el promedio de las distancias al cuadrado de la media. Si agregamos un valor más cercano a la media que esto, la varianza se reducirá. Si agregamos un valor que está más lejos de la media que esto, crecerá.

Esto es cierto para cualquier promedio de valores que no sean negativos. Si agrega un valor que es más alto que la media, la media aumenta. Si agrega un valor que es menor, disminuye.

Peter Flom - Restablece a Monica
fuente
Me encantaría ver una prueba rigurosa también. Si bien entiendo el principio, estoy desconcertado por el hecho de que el valor debe estar al menos a una desviación de la media. ¿Por qué precisamente 1?
JohnK
No veo lo que es confuso. La varianza es el promedio. Si agrega algo mayor que el promedio (es decir, más de 1 sd), aumenta. Pero no soy uno para pruebas formales
Peter Flom - Restablece a Monica
Podría ser mayor que el promedio en 0.2 desviaciones estándar. ¿Por qué no aumentaría entonces?
JohnK
No, no mayor que la media de los datos, mayor que la varianza, que es la media de las distancias al cuadrado.
Peter Flom - Restablece a Monica
44
Es confuso porque incluir un nuevo valor cambia la media, por lo que cambian todos los residuos. Es concebible que incluso cuando el nuevo valor esté lejos de la media anterior, su contribución a la DE podría compensarse reduciendo la suma de cuadrados de los residuos de los otros valores. Esta es una de las muchas razones por las cuales las pruebas rigurosas son útiles: proporcionan no solo seguridad en el conocimiento, sino también información (e incluso información nueva). Por ejemplo, la prueba mostrará que debe agregar un nuevo valor que esté estrictamente más allá de una SD de la media para aumentar la SD.
whuber
2

Z=xμσ.
xZx
σ=i=1NZi2N1
σZN
wcampbell
fuente
Un número cuyo valor absoluto es menor que 1, cuando se eleva al cuadrado también será menor que 1 en abs. valor. Sin embargo, lo que no entiendo es que incluso si Z_N cae en esa categoría, estamos agregando un valor positivo a σ, ¿no debería aumentar?
JohnK
ZN+1
1
NσZi2
¡Exactamente lo que estaba tratando de expresar!
wcampbell
ZiN1