Media de la muestra bootstrap vs estadística de la muestra

18

Digamos que tengo una muestra y la muestra de bootstrap de esta muestra para un estatico (por ejemplo, la media). Como todos sabemos, esta muestra de bootstrap estima la distribución muestral del estimador de la estadística.χ

Ahora, ¿es la media de esta muestra de bootstrap una mejor estimación de la estadística de población que la estadística de la muestra original ? ¿En qué condiciones sería ese el caso?

Amelio Vazquez-Reina
fuente
2
La media de la muestra de bootstrap es la media de la muestra y no necesita una muestra de bootstrap en este caso.
Xi'an
1
Gracias @ Xi'an No estoy seguro de seguir. La media de la muestra de bootstrap puede ser numéricamente diferente de la media de la muestra. ¿Estás tratando de decir que los dos siguen siendo teóricamente equivalentes? ¿Se puede confirmar en ambos extremos?
Amelio Vazquez-Reina
2
Aclaremos nuestra terminología: la "muestra de arranque" podría referirse a una muestra específica con reemplazo de los datos o podría referirse a una variable aleatoria (multivariada) de la cual dicha muestra se consideraría una realización. Tiene razón en que la media de una realización puede diferir de la media de los datos, pero @ Xi'an proporciona la observación más relevante de que la media de la variable aleatoria (que por definición es la estimación inicial de la media de la población ) debe coincidir con la media de los datos.
whuber
1
Entonces su pregunta es casi idéntica a stats.stackexchange.com/questions/126633/… ; la única diferencia es que las realizaciones de muestra de bootstrap pueden superponerse, pero el análisis dado en la respuesta allí se traslada fácilmente a la situación de bootstrap, con el mismo resultado.
whuber
1
Veo la conexión @whuber, aunque en bootstrap uno tiene "subconjuntos con reemplazo" y las realizaciones pueden superponerse, como usted dijo. Me imagino que la distribución (por ejemplo, pseudoaleatoriedad) utilizada para obtener las nuevas muestras en bootstrap también puede afectar el sesgo de la estimación de la muestra de bootstrap. Quizás la respuesta es que para todos los asuntos prácticos la diferencia es insignificante. De esto se trata la pregunta: condiciones, sutilezas y la diferencia en la práctica.
Amelio Vazquez-Reina

Respuestas:

19

Generalicemos, para enfocarnos en el quid de la cuestión. Explicaré los detalles más pequeños para no dejar dudas. El análisis requiere solo lo siguiente:

  1. La media aritmética de un conjunto de números se define comoz1,,zm

    1metro(z1++zmetro).
  2. La expectativa es un operador lineal. Es decir, cuando son variables aleatorias y α i son números, entonces la expectativa de una combinación lineal es la combinación lineal de las expectativas,Zyo,yo=1,...,metroαyo

    E(α1Z1++αmZm)=α1E(Z1)++αmE(Zm).

Sea una muestra ( B 1 , ... , B k ) obtenida de un conjunto de datos x = ( x 1 , ... , x n ) tomando k elementos uniformemente de x con reemplazo. Deje m ( B ) será la media aritmética de B . Esta es una variable aleatoria. LuegoB(B1,,Bk)x=(x1,,xn)kxm(B)B

E(m(B))=E(1k(B1++Bk))=1k(E(B1)++E(Bk))

sigue por la linealidad de la expectativa. Como todos los elementos de se obtienen de la misma manera, todos tienen la misma expectativa, b dice:Bb

E(B1)==E(Bk)=b.

Esto simplifica lo anterior a

E(m(B))=1k(b+b++b)=1k(kb)=b.

Por definición, la expectativa es la suma de valores ponderada por la probabilidad. Dado que se supone que cada valor de tiene la misma probabilidad de 1 / n de ser seleccionado,X1/n

E(m(B))=b=E(B1)=1nx1++1nxn=1n(x1++xn)=x¯,

La media aritmética de los datos.

Para responder a la pregunta, si uno usa la media de datos para estimar la media de la población, entonces la media de arranque (que es el caso k = n ) también es igual a ˉ x , y por lo tanto es idéntico como un estimador de la media de la población.x¯k=nx¯


Para las estadísticas que no son funciones lineales de los datos, no se cumple necesariamente el mismo resultado. Sin embargo, sería un error simplemente sustituir la media de bootstrap por el valor de la estadística en los datos: no es así como funciona el bootstrapping. En cambio, al comparar la media de bootstrap con la estadística de datos obtenemos información sobre el sesgo de la estadística. Esto se puede usar para ajustar la estadística original para eliminar el sesgo. Como tal, la estimación corregida por sesgo se convierte así en una combinación algebraica de la estadística original y la media de arranque. Para obtener más información, busque "BCa" (bootstrap acelerado y con corrección de sesgos) y "ABC". Wikipedia proporciona algunas referencias.

whuber
fuente
¿Quiere decir que la expectativa de la media de arranque es igual a la media de los datos, no? La media de arranque en sí misma no está determinada por la muestra de datos (original).
capybaralet
@ user2429920 La media de bootstrap es una estadística determinada por la muestra. En este sentido, es idéntico a la media muestral. Su expectativa se toma en el sentido de la distribución muestral. Sospecho que podría estar usando "expectativa" en un sentido diferente en relación con el proceso de calcular el promedio de arranque mediante submuestreo repetido con reemplazo.
whuber
1
Creo que el último párrafo es la respuesta real a esta pregunta, ya que es general y no se centra solo en la estadística media. Tenía la misma duda que tenía el OP, y no estaba al tanto de la existencia de BCa. Aunque la demostración en esta respuesta no me ayudó mucho (no estoy usando la media como mi estadística), el último párrafo fue muy claro sobre el quid de la cuestión. Creo que la respuesta de Xi'an también aborda el caso en el que se usa la estadística media, por lo que el mismo problema. ¡Gracias!
Gabriel
1
@Gabriel buenos puntos. Revisé el registro: antes de editar, esta pregunta originalmente solo preguntaba sobre la media. Es por eso que las respuestas parecen estar tan centradas en esa estadística.
whuber
9

F^n(x)=1ni=1nIXixXiiidF(x),
EF^n[X]=1ni=1nXi=X¯n
EF^n[X]X¯n
Xi'an
fuente
2
+1 Esta es la respuesta que originalmente quería escribir, pero temía que pudiera ser demasiado opaca para algunos lectores. Sin embargo, me alegra verlo tan elegantemente presentado. Sin embargo, no estoy seguro de lo que quiere decir en su última oración, donde parece diferenciar la "expectativa" de la aproximación simulada a la media de su "límite": dado que la expectativa es constante (no varía con el tamaño de la simulación) ), realmente no hay ningún límite que tomar.
whuber
@whuber: ¡Gracias por el comentario y perdón por escribir mi breve respuesta exactamente al mismo tiempo que la tuya! Sus explicaciones son ciertamente más legibles para los novatos en bootstrap. Corregí la oración final, cuya parte limitante es la ley de los grandes números.
Xi'an
3
¡Su uso de "malo" en esa última oración es bastante ambiguo! Lo descubrí por tu pista LLN. Para cualquier simulación finita de la distribución bootstrap, cada muestra en la simulación produce su propia media (hay un significado de "media"). El promedio de todas esas muestras en una simulación dada produce una media de simulación (hay otro significado). La media de simulación converge a una constante a medida que el tamaño de la simulación crece, que es la media de arranque (un tercer significado), y esto es igual a la media de la muestra (el cuarto significado). (Y esto estima la media de la población - ¡un quinto significado!)
whuber