¿Por qué cambia la varianza de una muestra si las observaciones están duplicadas?
25
Se dice que la varianza es una medida de propagación. Entonces, pensé que la varianza de 3,5es igual a la varianza de 3,3,5,5ya que los números están igualmente distribuidos. Pero este no es el caso, la varianza de 3,5es 2mientras que la varianza de 3,3,5,5es 1 1/3.
Esto me desconcierta, dada la explicación de que se supone que la varianza es una medida de propagación.
Entonces, en ese contexto, ¿qué significa medida de propagación ?
Si define la varianza como s2norte=MSE= 1norte∑nortei = 1( xyo- x¯)2: similar a la varianza de la población pero con una media muestral paraμ, entonces ambas muestras tendrían la misma varianza.
Entonces, la diferencia se debe únicamente a la corrección de Bessel en la fórmula habitual para la varianza de la muestra ( s2n - 1= nn - 1⋅MSE=nn−1⋅1n∑ni=1(xi−x¯)2=1n−1∑ni=1(xi−x¯)2, que se ajusta por el hecho de que lamedia delamuestraestá más cerca de los datos que la media de la población, para que sea imparcial (tomando el valor correcto "en promedio").
El efecto desaparece gradualmente al aumentar el tamaño de la muestra, ya que n - 1norte va a 1 comon → ∞.
Por cierto, no hay una razón particular por la que tenga que usar el estimador imparcial para la varianza: s2norte es un estimador perfectamente válido y, en algunos casos, podría tener ventajas sobre la forma más común (la imparcialidad no es necesariamente tan grande) acuerdo).
La variación en sí misma no es directamente una medida de propagación. Si doblo todos los valores en mi conjunto de datos, afirmo que son el doble de "dispersos". Pero la varianza aumenta en un factor de 4. Por lo tanto, más comúnmente, se dice que la desviación estándar, en lugar de la varianza, es una medida de propagación.
Por supuesto, el mismo problema ocurre con la desviación estándar (la versión habitual sn - 1 ) que con la varianza: cuando duplica los puntos, la desviación estándar cambia, por la misma razón que sucede con la varianza.
En muestras pequeñas, la corrección de Bessel hace que la desviación estándar sea algo menos intuitiva como medida de propagación debido a ese efecto (que duplicar la muestra cambia el valor). Pero muchas medidas de propagación conservan el mismo valor al duplicar la muestra; Mencionaré algunos.
snorte (por supuesto)
la desviación media (absoluta) de la media
la desviación media (absoluta) de la mediana
el rango intercuartil (al menos para algunas definiciones de cuartiles de muestra)
"No hay una razón particular por la que tenga que usar el estimador imparcial"; de hecho, no necesariamente debe estimar nada. La varianza de {3, 5}sí mismo es 1, según la primera fórmula. Como usted señala, el interlocutor ha intentado estimar la varianza de una población de la cual se presume que es una muestra, pero quién sabe si es o no.
Steve Jessop
1
Como una especie de mnemotecnia, VX= EVX+ VmiX
La fórmula habitual de la varianza de la muestra compensa eso, y la varianza de la media de la muestra escala inversamente con el tamaño de la muestra.
Como ejemplo extremo, tomar una sola muestra siempre mostrará una varianza muestral de 0, obviamente no indica una varianza de 0 para la distribución subyacente.
Al combinar estimadores con estadísticas , esta respuesta confunde, en lugar de aclarar, la pregunta. Lea la respuesta original de Glen_b en este hilo. El argumento en los primeros dos párrafos es misterioso porque parece ser irrelevante para la pregunta.
{3, 5}
sí mismo es 1, según la primera fórmula. Como usted señala, el interlocutor ha intentado estimar la varianza de una población de la cual se presume que es una muestra, pero quién sabe si es o no.Como una especie de mnemotecnia,VX= EVX+ VmiX
La fórmula habitual de la varianza de la muestra compensa eso, y la varianza de la media de la muestra escala inversamente con el tamaño de la muestra.
Como ejemplo extremo, tomar una sola muestra siempre mostrará una varianza muestral de 0, obviamente no indica una varianza de 0 para la distribución subyacente.
fuente