Mi comprensión del enfoque bootstrap se basa en el marco de Wasserman (casi al pie de la letra):
Dejar ser una estadística ( es la muestra iid extraída de la distribución ) Supongamos que queremos estimar - la varianza de dado .
El enfoque de arranque sigue estos dos pasos:
Estimar con , dónde Es la función de distribución empírica.
Aproximado usando simulación.
¿Entiendo correctamente que la simulación en el paso 2 podría reemplazarse con un cálculo preciso, excepto que no es factible para valores prácticamente útiles de ? Aquí está mi pensamiento: precisamente es igual a una integral de . es una función escalonada, con un número finito pasos; para que podamos ignorar todos los puntos excepto el puntos donde tiene una masa distinta de cero. Entonces la integral es exactamente igual a una suma decondiciones. Una vez excede 14, un cálculo directo simple es imposible.
Pero todo lo que estamos tratando de hacer es calcular una integral. ¿Por qué no reemplazar la simulación de arranque de fuerza bruta con alguno de los algoritmos numéricos tradicionales para tomar integrales? ¿No daría lugar a una precisión mucho mayor para el mismo tiempo de cálculo?
Incluso algo tan simple como dividir el espacio muestral en secciones (tal vez con volúmenes más pequeños donde la estadística de la muestra varía más rápido) y estimar el valor de la estadística en cada sección usando el punto medio, parece ser mejor que el bootstrap ciego.
¿Qué me estoy perdiendo?
¿Quizás bootstrap funciona tan bien y tan rápido que no hay necesidad de hacer nada más complicado? (Por ejemplo, si la pérdida de precisión en el paso 1 es mucho mayor que en el paso 2, entonces las mejoras al paso 2 son bastante inútiles).
La simulación más utilizada en bootstrapping para el cálculo numérico de la varianza podría en principio ser reemplazada por un cálculo exacto o una aproximación alternativa de la integral. Sin embargo, se debe tener en cuenta que una simulación de "fuerza bruta" como alternativa a otras técnicas de integración numérica es en realidad una buena idea. La respuesta a la pregunta "¿No daría lugar a una precisión mucho mayor para el mismo tiempo computacional?" es ninguna .
¿Pero por qué es así? La cuestión es que la integración numérica estándar en las dimensiones altas se escala mal con la dimensión. Si va a dividir el espacio en puntos de cuadrícula regulares, digamos, conr puntos de cuadrícula en cada coordenada, terminas con rn puntos de cuadrícula en total. La aproximación lograda por la simulación (conocida como integración de Monte Carlo) puede verse como una elección inteligente de evaluaciones de funciones. En lugar de llevar mucho tiempo las evaluaciones de cuadrícula, solo evaluamos la función que integramos en los puntos seleccionados. El error es, debido a la naturaleza aleatoria de los puntos seleccionados, aleatorio, pero generalmente puede ser controlado por el teorema del límite central.
Existen otros métodos, como la integración cuasialeatoriana, de los que no sé prácticamente nada, que hacen evaluaciones inteligentes de funciones basadas en números cuasialeatorios en lugar de los números seudoaleatorios que utilizamos para la integración ordinaria de Montecarlo.
fuente