Selección adaptativa del número de réplicas de arranque

8

Como con la mayoría de los métodos de Monte Carlo, la regla para el arranque es que cuanto mayor sea el número de repeticiones, menor será el error de Monte Carlo. Pero hay rendimientos decrecientes, por lo que no tiene sentido ejecutar tantas réplicas como sea posible.

Suponga que desea asegurarse de que su estimación θ^ de una cierta cantidad θ esté dentro de ε de la estimación θ~ que obtendría con infinitas réplicas. Por ejemplo, es posible que desee estar razonablemente seguro de que los dos primeros lugares decimales de θ^ no son incorrectos debido al error de Monte Carlo, en cuyo caso ε=.005 . ¿Existe un procedimiento adaptativo que pueda usar en el que siga generando réplicas de arranque, comprobando θ^ y deteniéndose de acuerdo con una regla tal que, por ejemplo, |θ^θ~|<ε con 95% de confianza?

NB Si bien las respuestas existentes son útiles, todavía me gustaría ver un esquema para controlar la probabilidad de que |θ^θ~|<ε .

Kodiólogo
fuente
Me opongo a llamar al bootstrap un método de Monte Carlo. No es así, aunque a menudo se necesitan métodos de Monte Carlo para obtener buenas aproximaciones a las estimaciones de arranque porque la enumeración no es factible.
Michael R. Chernick
No estoy seguro exactamente de lo que estás preguntando. Pero a menudo es difícil saber de antemano cuántas réplicas de bootstrap necesita para hacer la aproximación de Monte Carlo a la estimación de bootstrap cerca de la estimación de bootstrap real. He sugerido hacer algo como lo que estás sugiriendo. Eso sería agregar réplicas hasta que el cambio en la estimación sea pequeño. Esto sería una indicación de convergencia.
Michael R. Chernick
@MichaelChernick "No estoy seguro exactamente de lo que estás preguntando". - ¿Qué puedo hacer para ayudar a aclararlo?
Kodiólogo
Cuando habla de selección adaptativa, ¿quiere decir lo que sugiero? Es continuar tomando réplicas de arranque hasta que dos estimados sucesivos estén muy cerca (digamos que la diferencia absoluta es menor que un especificado ). ϵ
Michael R. Chernick
@MichaelChernick No creo que mirar las diferencias entre sucesivas s sea suficiente para obtener . Pero no estoy seguro. θ~|θ^θ~|<ε
Kodiólogo

Respuestas:

3

Si la estimación de en las réplicas se distribuye normalmente, supongo que puede estimar el error en partir de la desviación estándar :θσ^θ^σ

σ^=σn

entonces puedes parar cuando .1.96σ^<ϵ

¿O he entendido mal la pregunta? ¿O quieres una respuesta sin asumir la normalidad y en presencia de autocorrelaciones significativas?

fabiob
fuente
Sería bueno no tener que asumir la normalidad, pero ciertamente podemos suponer que las réplicas de arranque se seleccionan de forma independiente, si ese es el tipo de dependencia que quiere decir con autocorrelación.
Kodiólogo
Sin embargo, si no asumimos la normalidad, ni siquiera podemos estar seguros de que la media sea una buena estimación para theta. Creo que necesitamos más hipótesis para proponer una solución ...
fabiob
Para ser claros, ¿qué cosa, exactamente, estás asumiendo que es normal? Su texto de respuesta dice "las réplicas se distribuyen normalmente", pero cada réplica es una muestra que tiene el mismo tamaño que la muestra original. No sé qué significaría que una colección de muestras se distribuya normalmente.
Kodiólogo
Supongo que es normal la distribución de la estimación de la cantidad que le interesa, que realiza en la réplica . Editaré mi formulación que no estaba clara. θii
fabiob
3
finalmente observe cómo mi respuesta y la de Michael son las mismas si sustituye C-> y B -> , lo que sugiere una forma de "determinar" C. puede tomar la varianza de , o el doble de eso si quieres ser conservador ¿Estás de acuerdo (o crees que me falta algo)? σ2nθi
fabiob
2

En las páginas 113-114 de la primera edición de mi libro Bootstrap Methods: A Practitioner's Guide Wiley (1999), analizo los métodos para determinar cuántas réplicas de bootstrap se deben tomar al usar la aproximación de Monte Carlo.

Entro en detalles sobre un procedimiento debido a Hall que se describió en su libro The Bootstrap and Edgeworth Expansion, Springer-Verlag (1992). Él muestra que cuando el tamaño de la muestra n es grande y el número de réplicas de bootstrap B es grande, la varianza de la estimación de bootstrap es C / B donde C es una constante desconocida que no depende de no B. Entonces, si puede determinar C o enlazado arriba, puede determinar un valor para B que haga que el error de la estimación sea menor que el que especifique en su pregunta.ϵ

Describo una situación donde C = 1/4. Pero si no tiene una buena idea de cuál es el valor C, puede recurrir al enfoque que describe donde toma B = 500, y luego duplicarlo a 1000 y comparar la diferencia en esas estimaciones de arranque. Este procedimiento puede se repite hasta que la diferencia sea tan pequeña como quieras que sea.

Efron da otra idea en el artículo "Mejores intervalos de confianza de arranque (con discusión)", (1987) Journal of the American Statistical Association vol. 82 pp 171-200.

Michael R. Chernick
fuente
Ah, por "dos estimaciones sucesivas" pensé que querías decir algo así como la estimación de de la réplica 1,002 versus la estimación de de la réplica 1,003. La comparación de la estimación de todas las primeras 500 réplicas con la de las segundas 500 o la de las primeras 1000 es más intuitiva. θθ
Kodiólogo
He visto a Efron (1987) antes, pero ¿qué parte aborda la cuestión de elegir la cantidad de réplicas de arranque?
Kodiólogo
En mi libro menciono que en Efron (1967) y Booth y Sarkar (1998) señalan que después de un número particular (grande) de iteraciones, el error en la estimación de bootstrap está dominado por el error debido al uso de la distribución empírica (como una aproximación a la distribución de la población) haga que el error en la aproximación de Monte Carlo sea pequeño. No cité la página o páginas particulares donde se discute esto.
Michael R. Chernick
En el comentario anterior me refería a Efron (1987).
Michael R. Chernick