Bootstrap vs integración numérica

8

Mi comprensión del enfoque bootstrap se basa en el marco de Wasserman (casi al pie de la letra):

Dejar Tn=g(X1,...,Xn) ser una estadística (Xi es la muestra iid extraída de la distribución F) Supongamos que queremos estimarVF(Tn) - la varianza de Tn dado F.

El enfoque de arranque sigue estos dos pasos:

  1. Estimar VF(Tn) con VF^(Tn), dónde F^ Es la función de distribución empírica.

  2. Aproximado VF^(Tn) usando simulación.

¿Entiendo correctamente que la simulación en el paso 2 podría reemplazarse con un cálculo preciso, excepto que no es factible para valores prácticamente útiles de n? Aquí está mi pensamiento:VF^ precisamente es igual a una integral de Tn(X1,...,Xn)dF^(X1)dF^(X2)...dF^(Xn). F^ es una función escalonada, con un número finito npasos; para que podamos ignorar todos los puntos excepto eln puntos donde dF^(x)tiene una masa distinta de cero. Entonces la integral es exactamente igual a una suma denncondiciones. Una vezn excede 14, un cálculo directo simple es imposible.

Pero todo lo que estamos tratando de hacer es calcular una integral. ¿Por qué no reemplazar la simulación de arranque de fuerza bruta con alguno de los algoritmos numéricos tradicionales para tomar integrales? ¿No daría lugar a una precisión mucho mayor para el mismo tiempo de cálculo?

Incluso algo tan simple como dividir el espacio muestral en secciones (tal vez con volúmenes más pequeños donde la estadística de la muestra varía más rápido) y estimar el valor de la estadística en cada sección usando el punto medio, parece ser mejor que el bootstrap ciego.

¿Qué me estoy perdiendo?

¿Quizás bootstrap funciona tan bien y tan rápido que no hay necesidad de hacer nada más complicado? (Por ejemplo, si la pérdida de precisión en el paso 1 es mucho mayor que en el paso 2, entonces las mejoras al paso 2 son bastante inútiles).

max
fuente

Respuestas:

6

El bootstrap funciona notablemente bien. Si desea estimar la media, la varianza y algunos cuantiles no demasiado extremos de la distribución de algunos de baja dimensiónθ^(Y), de cientos a miles de muestras repetidas harán que el error de Monte Carlo sea insignificante, para muchos problemas realistas. Como un subproducto feliz, también le brinda una muestra deθ^(Y), que se puede utilizar para procedimientos de diagnóstico, si se desea, y no es demasiado difícil obtener medidas aceptablemente buenas de cuán grandes son realmente los errores de Monte Carlo.

Ajustar un modelo de regresión, por ejemplo, mil veces más (hoy) no es un gran problema, ya sea en términos de tiempo de CPU o esfuerzo de codificación.

Por el contrario, la integración numérica (excluyendo los métodos de Monte Carlo) puede ser difícil de codificar: tendría que decidir cómo dividir el espacio muestral, por ejemplo, lo cual es una tarea no trivial. Estos métodos tampoco brindan los diagnósticos, y la precisión con la que estiman la verdadera integral es notoriamente difícil de evaluar.

Para hacer la mayor parte de lo que hace el bootstrap, pero más rápido, eche un vistazo al Método de Momentos Generalizado : para la inferencia basada en modelos de regresión (y mucho más), puede considerarlo como una aproximación rápida y precisa de lo que el bootstrap no paramétrico daría.

invitado
fuente
Gracias. Dado que el paso 2 se maneja bastante bien, tengo curiosidad, ¿puede GMM o cualquier otra técnica abordar la imprecisión en el paso 1 (donde estimamos la varianza de la distribución verdadera con la varianza de la distribución empírica)?
max
El GMM "simple" utiliza aproximaciones bastante sencillas a la verdadera covarianza. Se puede usar el uso de aproximaciones de orden superior (aproximaciones de punto de silla y similares), pero tendría que codificarlas usted mismo y posiblemente hacer suposiciones ligeramente más fuertes que el GMM típico para asegurarse de obtener la "mejor" aproximación.
invitado
3

La simulación más utilizada en bootstrapping para el cálculo numérico de la varianza podría en principio ser reemplazada por un cálculo exacto o una aproximación alternativa de la integral. Sin embargo, se debe tener en cuenta que una simulación de "fuerza bruta" como alternativa a otras técnicas de integración numérica es en realidad una buena idea. La respuesta a la pregunta "¿No daría lugar a una precisión mucho mayor para el mismo tiempo computacional?" es ninguna .

¿Pero por qué es así? La cuestión es que la integración numérica estándar en las dimensiones altas se escala mal con la dimensión. Si va a dividir el espacio en puntos de cuadrícula regulares, digamos, conr puntos de cuadrícula en cada coordenada, terminas con rnpuntos de cuadrícula en total. La aproximación lograda por la simulación (conocida como integración de Monte Carlo) puede verse como una elección inteligente de evaluaciones de funciones. En lugar de llevar mucho tiempo las evaluaciones de cuadrícula, solo evaluamos la función que integramos en los puntos seleccionados. El error es, debido a la naturaleza aleatoria de los puntos seleccionados, aleatorio, pero generalmente puede ser controlado por el teorema del límite central.

Existen otros métodos, como la integración cuasialeatoriana, de los que no sé prácticamente nada, que hacen evaluaciones inteligentes de funciones basadas en números cuasialeatorios en lugar de los números seudoaleatorios que utilizamos para la integración ordinaria de Montecarlo.

NRH
fuente