Quería estimar el intervalo de confianza para la desviación estándar de algunos datos. El código R se ve así:
library(boot)
sd_boot <- function (x, ind) {
res <- sd(x$ReadyChange[ind], na.rm = TRUE)
return(res)
}
data_boot <- boot::boot(data, statistic = sd_boot, R = 10000)
plot(data_boot)
Estoy atrapado en interpretar este histograma de bootstraps correctamente. Todos los demás conjuntos de datos similares muestran distribuciones normales de estimaciones de arranque ... Pero no esto. Por cierto, estos son datos sin procesar reales:
> data$ReadyChange
[1] 27.800000 8.985046 11.728021 8.830856 5.738600 12.028310 7.771528 9.208924 11.778611 6.024259 5.969931 6.063484 4.915764
[14] 12.027639 9.111146 13.898171 12.921377 6.916667 10.764479 6.875000 12.875000 7.017917 9.750000 7.921782 12.911551 6.000000
¿Me pueden ayudar con la interpretación de este patrón de arranque?
r
confidence-interval
standard-deviation
bootstrap
usuario16
fuente
fuente
Respuestas:
Es posible que tenga un error en su código, o la biblioteca de arranque hace algo más de lo esperado.Editar:
Después de que se proporcionaron los datos corregidos, se hizo evidente que el patrón fue causado por un valor atípico, con cada pico correspondiente al número diferente de veces que se seleccionó el valor atípico en una muestra.
fuente
inds <- matrix(sample(21,10000*21,replace=TRUE),10000,21)
y luego busque los elementos de datos de cada columna y encuentre la desviación estándar conhist(apply(inds,1,function(ind){sd(data[ind])}))
. No hay picos múltiples.Dudo en dejar esto como respuesta, pero para mí esto parece ser causado por la pequeña cantidad de puntos de datos en los que basa su arranque (21, corríjame si me equivoco).
Para ser más precisos, a mí me parece que estos 21 valores específicos , de los cuales tomas muestras, tienen solo unas pocas desviaciones estándar posibles con frecuencia (los picos en tu histograma). Si la muestra base fuera más grande y más diversa, el histograma resultante sería mucho más uniforme (y probablemente más similar a la distribución normal que esperaba).
En una nota general y suponiendo que estoy aquí, este es un buen ejemplo para mostrar que bootstrapping no resuelve los problemas de tener una muestra pequeña.
fuente