¿Técnica de arranque adecuada para datos agrupados?

Tengo una pregunta con respecto a la técnica de arranque adecuada para usar con datos donde hay una agrupación fuerte.

Se me asignó la tarea de evaluar un modelo predictivo de efectos mixtos multivariados en los datos de reclamos de seguros al calificar el modelo de referencia actual en los datos de reclamos más recientes, para determinar qué tan bien el modelo predice qué episodios de atención contienen la mayor frecuencia de sesiones (superior Percentil 95). La sensibilidad, la especificidad y el valor predictivo positivo (VPP) se utilizarán para evaluar la efectividad del modelo.

Bootstrapping parece el camino correcto para construir intervalos de confianza para los porcentajes de sensibilidad, especificidad y VPP. Desafortunadamente, un arranque ingenuo no es apropiado dado que los datos de las reclamaciones están 1) correlacionados por el proveedor de atención, 2) agrupados en episodios de atención con visitas más frecuentes durante los meses anteriores en el episodio de atención (por lo que existe cierta autocorrelación). ¿Sería apropiada aquí una variación de la técnica de arranque de bloques móviles?

O tal vez un procedimiento de arranque de tres pasos funcionaría: 1) muestra con reemplazo de los distintos proveedores en los datos, luego 2) muestra con reemplazo de distintos episodios de atención por parte de proveedores seleccionados, luego 3) muestra con reemplazo de diferentes reclamos dentro de cada episodio seleccionado

¡Muchas gracias por las sugerencias!

bootstrap random-effects-model mixed-model RobertF
fuente

Respuestas:

El segundo enfoque que sugiere parece razonable, pero resulta que es mejor muestrear solo con reemplazo en el nivel más alto y sin reemplazo en los subniveles restantes al arrancar datos jerárquicos. Esto se muestra en las simulaciones de Ren et al (2010): http://www.tandfonline.com/doi/abs/10.1080/02664760903046102

Field y Welsh (2007) investigaron teóricamente diferentes enfoques para conjuntos de datos de 2 niveles y descubrieron que el muestreo con reemplazo en ambos niveles no era una idea brillante.
http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2007.00593.x/full

La autocorrelación que mencionas es un problema grave. Por otro lado, la selección sin reemplazo de los episodios de atención preservaría la estructura de autocorrelación, por lo que tal vez no sea un problema tan grande.

Pelle
fuente

Me pregunto si la siguiente solución es apropiada:

Rafael

... lo siento, no pude terminar mi comentario anterior. Aquí está: ... Cree un código (id) que tenga en cuenta cada nivel de agrupación (por ejemplo, episoid1.claim1, episoid1.claim1, ..., episoid2.claim1, episoid2.claim2, ..., episoidn.claimp) , y luego use GEE que le permite lidiar con la autocorrelación. Leí en alguna parte que los modelos GEE ofrecen una estimación sólida incluso en presencia de estructuras de clientes. ¿Suena razonable esta solución?

Rafael