¿Se puede usar el remuestreo bootstrap para calcular un intervalo de confianza para la varianza de un conjunto de datos?

9

Sé que si vuelve a tomar muestras de un conjunto de datos muchas veces y calcula la media cada vez, estas medias seguirán una distribución normal (por el CLT). Por lo tanto, puede calcular un intervalo de confianza en la media del conjunto de datos sin hacer ninguna suposición sobre la distribución de probabilidad del conjunto de datos.

Me preguntaba si podría hacer algo similar para la variación. Es decir, si tuviera que volver a tomar muestras de un conjunto de datos muchas veces y calcular la varianza cada vez, ¿estas variaciones seguirían una cierta distribución (independientemente de cuál fuera la distribución de probabilidad original del conjunto de datos)?

Sé que si ese conjunto de datos original es normal, entonces las variaciones seguirían una distribución de chi-cuadrado. Pero, ¿qué pasa en el caso de que no sea normal?

casandra
fuente

Respuestas:

10

¿Se puede usar el remuestreo Bootstrap para calcular un intervalo de confianza para la varianza de un conjunto de datos?

Sí, al igual que con muchas otras estadísticas.

Sé que si vuelve a tomar muestras de un conjunto de datos muchas veces y calcula la media cada vez, estas medias seguirán una distribución normal (por el CLT).

No siempre es el caso que si arranca un medio, el medio de arranque seguirá una distribución normal, incluso para distribuciones a las que se aplica el CLT.

norte=100

ingrese la descripción de la imagen aquí

No es remotamente normal.

La muestra original consta de noventa y siete valores '0', y un '1', un '2' y un '100'.

Aquí está el código (R) que ejecuté para generar el diagrama anterior:

 x <- c(rep(0,97),1,2,100)
 y <- replicate(10000,mean(sample(x,replace=TRUE)))
 plot(table(y),type="h")

El problema es que en este caso el tamaño de la muestra (100) es demasiado pequeño para que el CLT se aplique con este tipo de forma de distribución; no importa cuántas veces lo muestreemos de nuevo.

Sin embargo, si el tamaño de la muestra original es mucho mayor, la distribución de muestreo de los medios de muestra para algo como esto tendrá un aspecto más normal (aunque siempre discreto).

Aquí están los ecdfs al volver a muestrear los datos anteriores (negro) y para valores en las mismas proporciones pero con diez veces más valores (rojo; es decir, n = 1000):

ingrese la descripción de la imagen aquí

Como vemos, la función de distribución al volver a muestrear la muestra grande parece mucho más normal.

Si tuviera que volver a tomar muestras de un conjunto de datos muchas veces y calcular la varianza cada vez, ¿estas variaciones seguirían una cierta distribución?

No, por la misma razón no es necesariamente cierto para la media.

Sin embargo, el CLT también se aplica a la varianza *; es solo que no puede argumentar que el CLT se aplica al remuestreo bootstrap simplemente tomando muchas muestras. Si el tamaño de la muestra original es suficientemente grande, eso (en las condiciones adecuadas) puede tender a hacer que la distribución de muestreo de los medios (y los momentos más altos, si existen) sea relativamente cercana a una distribución normal (en relación con su distribución en muestras más pequeñas, en menos).

snorte2=1norteyo=1norte(Xyo-X¯)2yyo=(Xyo-X¯)2snorte2=y¯ysnorte2snorte-12snorte2snorte2snorte-12

Glen_b -Reinstate a Monica
fuente