Supongamos que uno realiza la llamada rutina de arranque no paramétrica extrayendo muestras de tamaño cada una de las observaciones originales con reemplazo. Creo que este procedimiento es equivalente a estimar la función de distribución acumulativa por el cdf empírico:
http://en.wikipedia.org/wiki/Empirical_distribution_function
y luego obtener las muestras de bootstrap simulando observaciones del cdf estimado en una fila.
Si tengo razón en esto, entonces uno tiene que abordar el tema del sobreajuste, porque el cdf empírico tiene aproximadamente N parámetros. Por supuesto, asintóticamente converge al cdf de la población, pero ¿qué pasa con las muestras finitas? Por ejemplo, si le dijera que tengo 100 observaciones y voy a estimar el cdf como con dos parámetros, no se alarmaría. Sin embargo, si el número de parámetros fuera a 100, no parecería razonable en absoluto.
Del mismo modo, cuando uno emplea una regresión lineal múltiple estándar, la distribución del término de error se estima como . Si uno decide cambiar a bootstrapping los residuales, debe darse cuenta de que ahora se usan aproximadamente parámetros solo para manejar la distribución del término de error.
¿Podría dirigirme a algunas fuentes que aborden este problema explícitamente o decirme por qué no es un problema si cree que me equivoqué?
Respuestas:
No estoy completamente seguro de entender bien su pregunta ... ¿Asumo que está interesado en el orden de convergencia?
¿Has leído alguno de los conceptos básicos sobre la teoría de bootstrap? El problema es que se vuelve bastante salvaje (matemáticamente) con bastante rapidez.
De todos modos, recomiendo echar un vistazo a
van der Vaart "Estadísticas asintóticas" capítulo 23.
Hall "Expansiones de Bootstrap y Edgeworth" (largo pero conciso y menos agitado que diría van der Vaart)
para lo básico.
Los "Métodos de Bootstrap" de Chernick están más dirigidos a los usuarios que a los matemáticos, pero tienen una sección sobre "dónde falla el bootstrap".
El clásico Efron / Tibshirani tiene poco sobre por qué Bootstrap realmente funciona ...
fuente
Intuitivamente, el arranque de muestras finitas subestima las colas pesadas de la distribución subyacente. Eso está claro, ya que las muestras finitas tienen un rango finito, incluso si el rango de su distribución real es infinito o, lo que es peor, tiene colas pesadas. Por lo tanto, el comportamiento de la estadística bootstrap nunca será tan "salvaje" como la estadística original. De manera similar a evitar el sobreajuste debido a demasiados parámetros en la regresión (paramétrica), podríamos evitar el sobreajuste utilizando la distribución normal de pocos parámetros.
Edite respondiendo los comentarios: Recuerde que no necesita el bootstrap para estimar el cdf. Usualmente usas el bootstrap para obtener la distribución (en el sentido más amplio que incluye cuantiles, momentos, lo que sea necesario) de alguna estadística. Por lo tanto, no necesariamente tiene un problema de sobreajuste (en términos de "la estimación debido a mis datos finitos se ve muy bien en comparación con lo que debería ver con la verdadera distribución salvaje"). Pero como resultó (según el artículo citado y el comentario de Frank Harrel a continuación), obtener un problema de sobreajuste está relacionado con problemas con la estimación paramétrica de las mismas estadísticas.
Entonces, como su pregunta implicaba, el arranque no es una panacea contra los problemas con la estimación paramétrica. La esperanza de que el bootstrap ayude con los problemas de parámetros al controlar toda la distribución es espuria.
fuente
Una fuente de intuición podría ser comparar las tasas de convergencia para los CDF paramétricos frente a los ECDF, para los datos de iid.
Entonces, en cierto sentido, la velocidad a la que necesita adquirir más muestras es la misma, ya sea que esté estimando el CDF usando un CDF empírico o si está estimando un parámetro directamente usando un estimador de tipo medio de muestra. Esto podría ayudar a justificar el comentario de Frank Harrell de que "El número de parámetros efectivos no es el mismo que el tamaño de la muestra".
Por supuesto, esa no es toda la historia. Aunque las tasas no difieren, las constantes sí. Y hay mucho más en el bootstrap no paramétrico que los ECDF: aún debe hacer cosas con el ECDF una vez que lo estima.
fuente