Bootstrap: la cuestión del sobreajuste

Supongamos que uno realiza la llamada rutina de arranque no paramétrica extrayendo muestras de tamaño cada una de las observaciones originales con reemplazo. Creo que este procedimiento es equivalente a estimar la función de distribución acumulativa por el cdf empírico: $B$ $n$ $n$

http://en.wikipedia.org/wiki/Empirical_distribution_function

y luego obtener las muestras de bootstrap simulando observaciones del cdf estimado en una fila. $n$ $B$

Si tengo razón en esto, entonces uno tiene que abordar el tema del sobreajuste, porque el cdf empírico tiene aproximadamente N parámetros. Por supuesto, asintóticamente converge al cdf de la población, pero ¿qué pasa con las muestras finitas? Por ejemplo, si le dijera que tengo 100 observaciones y voy a estimar el cdf como con dos parámetros, no se alarmaría. Sin embargo, si el número de parámetros fuera a 100, no parecería razonable en absoluto. $N(\mu, \sigma^2)$

Del mismo modo, cuando uno emplea una regresión lineal múltiple estándar, la distribución del término de error se estima como . Si uno decide cambiar a bootstrapping los residuales, debe darse cuenta de que ahora se usan aproximadamente parámetros solo para manejar la distribución del término de error. $N(0, \sigma^2)$ $n$

¿Podría dirigirme a algunas fuentes que aborden este problema explícitamente o decirme por qué no es un problema si cree que me equivoqué?

bootstrap sample-size sample small-sample finite-population James
fuente

Una forma de ver este arranque "no paramétrico" es que convierte la suposición paramétrica de normalidad en una "cantidad de interés" en alguna población grande y finita (por ejemplo, la media de un Censo de registros). De hecho, puede demostrar que esta versión del bootstrap se basa en estimaciones de "máxima probabilidad" del modelo multinomial, con 1 categoría para cada "tipo" distinto en la población.

probabilityislogic

Respuestas:

No estoy completamente seguro de entender bien su pregunta ... ¿Asumo que está interesado en el orden de convergencia?

porque el cdf empírico tiene aproximadamente N parámetros. Por supuesto, asintóticamente converge al cdf de la población, pero ¿qué pasa con las muestras finitas?

¿Has leído alguno de los conceptos básicos sobre la teoría de bootstrap? El problema es que se vuelve bastante salvaje (matemáticamente) con bastante rapidez.

De todos modos, recomiendo echar un vistazo a

van der Vaart "Estadísticas asintóticas" capítulo 23.

Hall "Expansiones de Bootstrap y Edgeworth" (largo pero conciso y menos agitado que diría van der Vaart)

para lo básico.

Los "Métodos de Bootstrap" de Chernick están más dirigidos a los usuarios que a los matemáticos, pero tienen una sección sobre "dónde falla el bootstrap".

El clásico Efron / Tibshirani tiene poco sobre por qué Bootstrap realmente funciona ...

BootstrapBill
fuente

$\mathcal{N}(\mu,\sigma^2)$

Intuitivamente, el arranque de muestras finitas subestima las colas pesadas de la distribución subyacente. Eso está claro, ya que las muestras finitas tienen un rango finito, incluso si el rango de su distribución real es infinito o, lo que es peor, tiene colas pesadas. Por lo tanto, el comportamiento de la estadística bootstrap nunca será tan "salvaje" como la estadística original. De manera similar a evitar el sobreajuste debido a demasiados parámetros en la regresión (paramétrica), podríamos evitar el sobreajuste utilizando la distribución normal de pocos parámetros.

Edite respondiendo los comentarios: Recuerde que no necesita el bootstrap para estimar el cdf. Usualmente usas el bootstrap para obtener la distribución (en el sentido más amplio que incluye cuantiles, momentos, lo que sea necesario) de alguna estadística. Por lo tanto, no necesariamente tiene un problema de sobreajuste (en términos de "la estimación debido a mis datos finitos se ve muy bien en comparación con lo que debería ver con la verdadera distribución salvaje"). Pero como resultó (según el artículo citado y el comentario de Frank Harrel a continuación), obtener un problema de sobreajuste está relacionado con problemas con la estimación paramétrica de las mismas estadísticas.

Entonces, como su pregunta implicaba, el arranque no es una panacea contra los problemas con la estimación paramétrica. La esperanza de que el bootstrap ayude con los problemas de parámetros al controlar toda la distribución es espuria.

Horst Grünbusch
fuente

Todavía no está claro cómo funciona Bootstrap dado que el número de parámetros efectivos involucrados en Bootstrap es aproximadamente el mismo que el tamaño de las muestras. Tengo una suposición: el objetivo final de bootstrap no es estimar la distribución completa, sino estimar 1-2 estadísticas de la distribución. Por lo tanto, a pesar de que el cdf empírico que está incrustado en el bootstrap está excesivamente ajustado, las estadísticas estimadas 1-2 terminan bien de alguna manera. ¿Lo entendí bien?

James

El número de parámetros efectivos no es el mismo que el tamaño de la muestra. La varianza de la función empírica de distribución acumulativa es casi la misma que la varianza de un ajuste paramétrico a la distribución cuando la distribución tiene 4 parámetros desconocidos para estimar. Una razón es que las estimaciones empíricas de CDF se ven obligadas a estar en orden ascendente.

Frank Harrell

Buen punto. ¿Podría proporcionar una referencia?

James

Desearía tener una. Lo he demostrado en el pasado mediante la simulación de Monte Carlo.

Frank Harrell

L_{2}

$L_2$

\hat{F} - F

$\hat{F}-F$

\hat{F} (x) - F (x)

$\hat{F}(x)-F(x)$

Una fuente de intuición podría ser comparar las tasas de convergencia para los CDF paramétricos frente a los ECDF, para los datos de iid.

$n^{-1/2}$

$n^{-1/2}$ $\sigma$ $\mu$

Entonces, en cierto sentido, la velocidad a la que necesita adquirir más muestras es la misma, ya sea que esté estimando el CDF usando un CDF empírico o si está estimando un parámetro directamente usando un estimador de tipo medio de muestra. Esto podría ayudar a justificar el comentario de Frank Harrell de que "El número de parámetros efectivos no es el mismo que el tamaño de la muestra".

Por supuesto, esa no es toda la historia. Aunque las tasas no difieren, las constantes sí. Y hay mucho más en el bootstrap no paramétrico que los ECDF: aún debe hacer cosas con el ECDF una vez que lo estima.

civilstat
fuente