¿Por qué no informar la media de una distribución bootstrap?

30

Cuando uno arranca un parámetro para obtener el error estándar, obtenemos una distribución del parámetro. ¿Por qué no usamos la media de esa distribución como resultado o estimación para el parámetro que estamos tratando de obtener? ¿No debería la distribución aproximarse a la real? Por lo tanto, obtendríamos una buena estimación del valor "real"? Sin embargo, informamos el parámetro original que obtuvimos de nuestra muestra. ¿Porqué es eso?

Gracias

Guillermo Pérez
fuente

Respuestas:

24

Porque la estadística bootstrapped es una abstracción más lejos de su parámetro de población. Tiene su parámetro de población, su estadística de muestra y solo en la tercera capa tiene el bootstrap. El valor medio de bootstrapped no es un mejor estimador para su parámetro de población. Es simplemente una estimación de una estimación.

Como la distribución de bootstrap que contiene todas las combinaciones de bootstrap posibles se centra alrededor de la estadística de muestra de manera muy similar a la estadística de muestra se centra alrededor del parámetro de población en las mismas condiciones. Este documento aquí resume estas cosas bastante bien y es uno de los más fáciles que pude encontrar. Para obtener pruebas más detalladas, siga los documentos a los que hacen referencia. Ejemplos notables son Efron (1979) y Singh (1981)norte

θsi-θ^θ^-θ

Cristian Dima
fuente
13

Existe al menos un caso en el que las personas no utilizan la media de la distribución de arranque: embolsado (abreviatura de agregación de bootstrap ).

La idea básica es que si su estimador es muy sensible a las perturbaciones en los datos (es decir, el estimador tiene una alta varianza y un bajo sesgo), puede promediar muchas muestras de bootstrap para reducir la cantidad de ejemplos particulares sobreajustados.

La página a la que vinculé señala que esto introduce un sesgo en su estimación, por lo que la media de la muestra a menudo tendrá más sentido que promediar sus muestras de arranque. Pero si tiene algo como un árbol de decisión o un clasificador vecino más cercano que puede cambiar radicalmente en respuesta a pequeños cambios en los datos, entonces este sesgo podría no ser una preocupación tan grande como el sobreajuste.

David J. Harris
fuente
1
yθ
Normalmente veo el embolsado usado para reducir la varianza de las estimaciones de uno para la respuesta (es decir, su sensibilidad a las fluctuaciones en los datos). Los modelos empaquetados más comúnmente (por ejemplo, árboles) generalmente no tienen parámetros bien definidos que se puedan comparar fácilmente entre las muestras de arranque.
David J. Harris
Gracias, eso es exactamente lo que pensé también. Para mí, el empaquetamiento no parece tener mucho sentido para otra cosa que no sea la estimación de una respuesta, por lo que es limitado en ese sentido.
Momo
10

θsiθ^θ^θ

Jeromy Anglim
fuente