Obteniendo e interpretando intervalos de confianza bootstrap de datos jerárquicos

Estoy interesado en obtener un intervalo de confianza de arranque en la cantidad X, cuando esta cantidad se mide 10 veces en cada una de las 10 personas.

Un enfoque es obtener la media por individuo, luego hacer un bootstrap de las medias (por ejemplo, volver a muestrear las medias con reemplazo).

Otro enfoque es hacer lo siguiente en cada iteración del procedimiento de arranque: dentro de cada individuo, muestrear las 10 observaciones de ese individuo con reemplazo, luego calcular una nueva media para ese individuo y finalmente calcular una nueva media grupal. En este enfoque, cada individuo observado en el conjunto de datos original siempre contribuye a la media del grupo en cada iteración del procedimiento de arranque.

Finalmente, un tercer enfoque es combinar los dos enfoques anteriores: volver a muestrear individuos y luego volver a muestrear dentro de esos individuos. Este enfoque difiere del enfoque anterior en que permite que el mismo individuo contribuya multiplicarse a la media grupal en cada iteración, aunque debido a que cada contribución se genera a través de un procedimiento de remuestreo independiente, se puede esperar que estas contribuciones varíen ligeramente entre sí.

En la práctica, encuentro que estos enfoques producen estimaciones diferentes para el intervalo de confianza (por ejemplo, con un conjunto de datos, encuentro que el tercer enfoque produce intervalos de confianza mucho más grandes que los dos primeros enfoques), por lo que tengo curiosidad por saber cuál podría ser cada uno. interpretado para representar.

confidence-interval bootstrap Mike Lawrence
fuente

Respuestas:

Su primer enfoque es sobre un S CI. Si quería medir dentro de S, entonces ese es el enfoque equivocado.

El segundo enfoque generaría un S CI que solo se aplicaría a esos 10 individuos.

El último enfoque es el correcto para dentro de S CI. Cualquier aumento en el IC se debe a que su IC es más representativo de un IC que podría aplicarse a la población en lugar de esas 10 S.

Juan
fuente

Según Davison e Hinckley ("Métodos Bootstrap y su aplicación", 1997, Sección 3.8), el tercer algoritmo es conservador. Abogan por un cuarto enfoque: simplemente volver a muestrear los temas.

Andrew Robinson
fuente

Interesante, tendré que buscar esa referencia. ¿Estás seguro de que te refieres al "cuarto" enfoque? El primer enfoque que enumero parece describir "simplemente volver a muestrear los temas".

Mike Lawrence el

Sí, lo hace, pero describe el remuestreo del tema. D&H aboga por volver a muestrear los temas y ajustar el modelo original.

Andrew Robinson el

También le gustaría ver el recientemente publicado: Ren, Shiquan, Lai, Hong, Tong, Wenjing, Aminzadeh, Mostafa, Hou, Xuezhang y Lai, Shenghan (2010) 'Bootstrapping no paramétrico para datos jerárquicos', Journal of Applied Statistics, 37: 9, 1487 - 1498

Andrew Robinson

@ Mike: volver a muestrear todo el clsuter es lo que hacen los estadísticos de encuestas en sus bootstraps. De hecho, ese es un procedimiento diferente que solo sería equivalente a su "primer" enfoque si (i) solo está estimando la media, y (ii) los datos no están ponderados y equilibrados. Ver también citeulike.org/user/ctacmo/article/1334050 , citeulike.org/user/ctacmo/article/1475866 , citeulike.org/user/ctacmo/article/582039 .

StasK