Me preguntaba cómo funcionan los CI de arranque (y BCa en barticular) en los datos distribuidos normalmente. Parece que hay mucho trabajo examinando su rendimiento en varios tipos de distribuciones, pero no pudo encontrar nada en los datos distribuidos normalmente. Como parece algo obvio estudiar primero, supongo que los documentos son demasiado viejos.
Hice algunas simulaciones de Monte Carlo usando el paquete de arranque R y encontré que los CI de arranque están de acuerdo con los CI exactos, aunque para muestras pequeñas (N <20) tienden a ser un poco liberales (CI más pequeños). Para muestras suficientemente grandes, son esencialmente lo mismo.
Esto me hace preguntarme si hay alguna buena razón para no usar siempre bootstrapping. Dada la dificultad de evaluar si una distribución es normal, y las muchas dificultades detrás de esto, parece razonable no decidir e informar los CI de arranque independientemente de la distribución. Entiendo la motivación para no usar pruebas no paramétricas de manera sistemática, ya que tienen menos potencia, pero mis simulaciones me dicen que este no es el caso de los CI de arranque. Son incluso más pequeños.
Una pregunta similar que me molesta es por qué no usar siempre la mediana como medida de tendencia central. Las personas a menudo recomiendan usarlo para caracterizar datos no distribuidos normalmente, pero dado que la mediana es la misma que la media de los datos distribuidos normalmente, ¿por qué hacer una distinción? Parecería bastante beneficioso si pudiéramos deshacernos de los procedimientos para decidir si una distribución es normal o no.
Tengo mucha curiosidad sobre sus pensamientos sobre estos temas, y si se han discutido antes. Las referencias serían muy apreciadas.
¡Gracias!
Pierre
Respuestas:
Es beneficioso observar la motivación para el intervalo BCa y sus mecanismos (es decir, los llamados "factores de corrección"). Los intervalos BCa son uno de los aspectos más importantes del bootstrap porque son el caso más general de los intervalos del percentil Bootstrap (es decir, el intervalo de confianza basado únicamente en la distribución del bootstrap).
En particular, observe la relación entre los intervalos BCa y los intervalos del percentil Bootstrap: cuando el ajuste de la aceleración (el primer "factor de corrección") y la asimetría (el segundo "factor de corrección") son cero, los intervalos BCa vuelven a el típico intervalo de percentil Bootstrap.
No creo que sea una buena idea SIEMPRE usar bootstrapping. Bootstrapping es una técnica robusta que tiene una variedad de mecanismos (ej .: intervalos de confianza y hay diferentes variaciones de bootstrap para diferentes tipos de problemas, como el bootstrap salvaje cuando hay heterocedasticidad) para ajustarse a diferentes problemas (ej: no normalidad ), pero se basa en una suposición crucial: los datos representan con precisión la verdadera población.
Esta suposición, aunque de naturaleza simple, puede ser difícil de verificar, especialmente en el contexto de tamaños de muestra pequeños (¡podría ser que una muestra pequeña sea un reflejo exacto de la verdadera población!). Si la muestra original en la que la distribución bootstrap (y, por lo tanto, todos los resultados que se derivan de ella) no es adecuadamente precisa, entonces sus resultados (y, por lo tanto, su decisión basada en esos resultados) serán defectuosos.
CONCLUSIÓN: Hay mucha ambigüedad con el bootstrap y debe tener precaución antes de aplicarlo.
fuente