¿Cuándo es válida la estimación de sesgo bootstrap?

31

A menudo se afirma que bootstrapping puede proporcionar una estimación del sesgo en un estimador.

Si es la estimación para alguna estadística, y son las réplicas de bootstrap (con i \ in \ {1, \ cdots, N \} ), entonces la estimación de bootstrap de sesgo es \ begin {ecation} \ mathrm {sesgo} _t \ approx \ frac {1} {N} \ sum_i \ tilde {t} _i- \ hat t \ end {ecuación} que parece extremadamente simple y poderoso, hasta el punto de ser inquietante. ~ t ii{1,,N}biunst1t^t~ii{1,,N}

biast1Nit~it^

No puedo entender cómo es esto posible sin tener un estimador imparcial de la estadística ya. Por ejemplo, si mi estimador simplemente devuelve una constante que es independiente de las observaciones, la estimación de sesgo anterior es claramente inválida.

Aunque este ejemplo es patológico, no puedo ver cuáles son los supuestos razonables sobre el estimador y las distribuciones que garantizarán que la estimación de arranque sea razonable.

Intenté leer las referencias formales, pero no soy estadístico ni matemático, así que no se aclaró nada.

¿Alguien puede proporcionar un resumen de alto nivel de cuándo se puede esperar que la estimación sea válida? Si conoces buenas referencias sobre el tema, eso también sería genial.


Editar:

La suavidad del estimador a menudo se cita como un requisito para que funcione el bootstrap. ¿Podría ser que uno también requiera algún tipo de inversión local de la transformación? El mapa constante claramente no satisface eso.

Bootstrapped
fuente
2
Un estimador constante es un estimador imparcial de esa constante, por lo que es natural que el estimador de arranque del sesgo sea cero.
Xi'an

Respuestas:

4

El problema que describe es un problema de interpretación, no uno de validez. La estimación de sesgo de arranque para su estimador constante no es inválida, de hecho es perfecta.

La estimación bootstrap de sesgo es entre un estimador y un parámetro donde es alguna distribución desconocida y una muestra de . La función es algo que, en principio, podría calcular si tuviera a mano la población. Algunas veces nos toman el plug-in estimación de usando el empírica distribución en el lugar de . Esto es presumiblemente lo que usted describe arriba. En todos los casos, la estimación inicial del sesgo es dondeθ=t(F),FxFt(F)s(x)=t( F ),t(F) F Fbiunaes F =E F [s(x*)]-t( Fθ^=s(x)θ=t(F),FxFt(F)s(x)=t(F^),t(F)F^Fx x

biasF^=EF^[s(x)]t(F^),
xson muestras de bootstrap de .x

La constante es un plug-in estimación para ese mismo constante perfecta:c La población es de y la muestra , la distribución empírica, que se aproxima . Si pudieras evaluar , obtendrías . Cuando calcula la estimación del complemento también obtiene . Sin prejuicios, como era de esperar.~ F F t ( F ) = c c t ( F ) = c cFF^Ft(F)=cct(F^)=cc

Un caso bien conocido en el que hay un sesgo en la estimación del complemento es en la estimación de la varianza, de ahí la corrección de Bessel. A continuación demuestro esto. La estimación del sesgo bootstrap no es tan mala: t(F^)

library(plyr)

n <- 20
data <- rnorm(n, 0, 1)

variance <- sum((data - mean(data))^2)/n

boots <- raply(1000, {
  data_b <- sample(data, n, replace=T)
  sum((data_b - mean(data_b))^2)/n
})

# estimated bias
mean(boots) - variance 
#> [1] -0.06504726

# true bias:
((n-1)/n)*1 -1
#> [1] -0.05

En su lugar, podríamos tomar como la media de la población y , situación en la que en la mayoría de los casos debería haber un sesgo claro: s ( x ) = ct(F)s(x)=c

library(plyr)

mu <- 3
a_constant <- 1

n <- 20
data <- rnorm(n, mu, 1)

boots <- raply(1000, {
  # not necessary as we will ignore the data, but let's do it on principle
  data_b <- sample(data, n, replace=T)

  a_constant
})

# estimated bias
mean(boots) - mean(data) 
#> [1] -1.964877

# true bias is clearly -2

Nuevamente, la estimación de bootstrap no es tan mala.

einar
fuente
Agregué esta respuesta porque las otras respuestas parecen dar por sentado que es un problema que la estimación del sesgo de arranque sea 0 cuando es una constante. No lo creo. t
Einar
Me gusta su respuesta y su demostración, pero no creo que su definición sea correcta "La estimación inicial del sesgo es una estimación del sesgo entre una función de su muestra y la misma función evaluada en la población". Si bien lo que escribe está bien definido, si esta fuera la definición, no habría forma de usar el bootstrap para estimar el sesgo de, por ejemplo, la varianza de la muestra como un estimador de la varianza de la población.
DavidR
@DavidR Tienes razón, gracias por comentar. He actualizado la respuesta.
Einar
¡Me gusta mucho este artículo! Mi única pregunta es sobre el "cálculo inicial de sesgo". Creo que lo que ha escrito es el sesgo real del estimador (pero para la distribución empírica en lugar de la distribución verdadera), ya que está tomando una expectativa sobre las muestras de bootstrap. ¿Creo que el estimador de bootstrap sería una suma finita sobre las muestras de bootstrap B?
DavidR
1
@DavidR ¡Me alegra que lo hagas! Lo que informo es técnicamente la estimación del sesgo bootstrap (porque usa en lugar de y la expectativa bootstrap de en lugar de su expectativa sobre ). Pero en la mayoría de las aplicaciones prácticas es intratable y Monte Carlo lo aproxima como usted dice. θ s ( ) F E F [ s ( x * ) ]t(F^)θs()FEF^[s(x)]
Einar
3

Comete un error y tal vez esa es la razón por la que es confuso. Tu dices:

si mi estimador simplemente devuelve una constante que es independiente de las observaciones, la estimación de sesgo anterior es claramente inválida

Bootstrap no se trata de cuánto está sesgado su método, sino de cuánto están sesgados sus resultados obtenidos por alguna función.

Si elige el método estadístico apropiado para analizar sus datos, y se cumplen todos los supuestos de este método, y realizó sus cálculos correctamente, entonces su método estadístico debería proporcionarle la "mejor" estimación posible que se puede obtener utilizando sus datos .

La idea de bootstrap es tomar muestras de sus datos de la misma manera que tomó muestras de sus casos de la población, por lo que es una especie de réplica de su muestreo. Esto le permite obtener una distribución aproximada (usando palabras de Efrons) de su valor y, por lo tanto, evaluar el sesgo de su estimación.

Sin embargo, lo que argumento es que su ejemplo es engañoso y, por lo tanto, no es el mejor ejemplo para discutir bootstrap. Como hubo malentendidos en ambos lados, permítanme actualizar mi respuesta y escribirla de manera más formal para ilustrar mi punto.

El sesgo para que sea ​​una estimación del valor verdadero se define como: thetaθ^θ

parcialidad(θ^norte)=miθ(θ^norte)-θ

dónde:

θ^norte=sol(X1,X2,...,Xnorte)

donde es el estimador.sol()

Como señala Larry Wasserman en su libro "Todas las estadísticas" :

Un requisito razonable para un estimador es que debe converger al valor del parámetro verdadero a medida que recopilamos más y más datos. Este requisito se cuantifica mediante la siguiente definición:
6.7 Definición. Un estimador puntual de un parámetro es consistente si .θ^norteθθ^nortePAGSθ

El estimador constante, siendo una función constante de : no cumple con este requisito ya que es independiente de los datos y un número creciente de observaciones no lo haría acercarse al valor verdadero (a menos que sea por pura suerte o tener supuestos a priori muy sólidos sobre es que ).Xsol(X)=λθλλ=θ

El estimador constante no cumple el requisito básico para ser un estimador razonable y, por lo tanto, es imposible estimar su sesgo porque no se aproxima a incluso con . Es imposible hacerlo con bootstrap y con cualquier otro método, por lo que no es un problema con bootstrap.θ^norteθnorte

Tim
fuente
55
Me temo que esta respuesta parece destinada a sembrar confusión. Un estimador constante es un estimador de acuerdo con la mayoría de las definiciones, y en algunos casos es incluso admisible. Su pregunta confunde el sesgo de muestreo con el sesgo de estimación, lo que seguramente confundirá a casi todos los lectores. Su párrafo sobre la "mejor estimación posible" es bueno, pero plantea la pregunta esencial de cómo medir "la mejor". El sesgo es solo un componente de eso (si es que lo hay).
whuber
Si bien no estoy lo suficientemente calificado para responder a OP, me temo que Whuber tiene razón. Además, ¿es válido llamar población significa un estimador? En relación con la última oración, creo que boostrap proporciona una estimación del sesgo del estimador en análisis y no del método de muestreo.
mugen
Entiendo que bootstrapping no puede detectar errores sistemáticos, pero al menos en algún límite se supone que detecta sesgos estadísticos. Supongo que su punto es sobre la sutileza en distinguir entre los dos, pero eso aún no está claro para mí. Parece que estás hablando de una noción de sesgo que nunca escuché, no del estimador, sino de los datos. ¿Cuál es la definición formal de esta noción de sesgo?
Bootstrapped
3
Definitivamente hay un malentendido: Tim, no estás usando "estimador" o "sesgo" de una manera convencional para el contexto establecido en esta pregunta, mientras que Bootstrapped sí. Además, es incorrecto que el bootstrap pueda detectar errores sistemáticos e incorrecto al equiparar aquellos con "sesgo" en el contexto de la estimación. También quedan varios errores en la respuesta. Por ejemplo, el sesgo de un estimador constante (igual, por ejemplo, a ) de un parámetro es, por definición, . Por favor consultar referencias . θ λ - θλθ λ-θ
whuber
8
Es interesante que traigas el tema de la consistencia en tu edición. Puede resultarle divertido, y tal vez incluso un poco estimulante, contemplar el estimador que es igual a siempre que y, de lo contrario, sea el estimador de máxima probabilidad. Aunque esto es consistente, adolece del problema indicado por el OP. Dado que este hilo se refiere a la caracterización de condiciones que garantizarían que "la estimación de bootstrap sea razonable", parecería de este ejemplo que la consistencia no está entre esas condiciones, ni siquiera es un concepto relevante 0n<10100θ^0 0norte<10100
whuber
3

Creo que tu fórmula está mal. La última debería tener una estrella en lugar de un sombrero: b i a s t1t

siyounast1norteyot~yo-t

Desea utilizar el estadístico real evaluado en la distribución empírica (a menudo esto es fácil, ya que la muestra original es un conjunto finito), en lugar de la estimación. En algunos casos, estos pueden ser los mismos (por ejemplo, la media empírica es la misma que la media de la muestra), pero en general no lo serán. Usted dio un caso en el que son diferentes, pero un ejemplo menos patológico es el estimador imparcial habitual de la varianza, que no es lo mismo que la varianza de la población cuando se aplica a una distribución finita.

Si la estadística no tiene sentido en la distribución empírica (por ejemplo, si supone una distribución continua), entonces no debe usar el arranque de vainilla. Puede reemplazar la distribución empírica con una estimación de densidad del núcleo (arranque suave), o si sabe que la distribución original se encuentra en alguna familia en particular, puede reemplazar la distribución empírica con la estimación máxima probable de esa familia (arranque paramétrico).t

TL / DR: El método bootstrap no es mágico. Para obtener una estimación imparcial del sesgo, debe poder calcular el parámetro de interés exactamente en una distribución finita.

Evan Wright
fuente
1
No estoy seguro sobre el significado de su notación. De acuerdo con estas notas de conferencia de Pete Hall (UC Davis), estas notas de conferencia de Cosma Shalizi (CMU), y esta página del libro de Efron y Tibshirani parecen indicar que lo que tengo no está mal, simplemente no es completamente general (es decir, yo Estoy usando el estimador de enchufe aquí, pero eso no es necesario).
Bootstrapped
Efron y Tibshirani dan la misma fórmula que yo, con una notación diferente. Pete Hall parece estar asumiendo que : en la página 11, reemplaza (que es lo que llamé con sin comentarios. La discusión de Cosma Shalizi sobre pivots en la sección 2.2 también parece suponer implícitamente que es el valor real de en la distribución empírica ( ). Creo que toda su confusión es causada por descuido en estas notas de conferencia. θ ( F 1 ) t * θ t t t *t=t^θ(F1)tθ^t^tt
Evan Wright
Es justo, pero no creo que la notación resuelva el problema o aborde la pregunta. En particular, sé que el estimador constante tiene que descomponerse (bootstrap no es mágico). El ejemplo de la varianza funciona incluso si suponemos que (es decir, la estimación del sesgo bootstrap funciona). ¿Qué pasa con otros estimadores para otras estadísticas? ¿Cuáles son las condiciones suficientes para que funcione la estimación del sesgo bootstrap? ¿Cómo viola el estimador constante estas condiciones? t=t^
Bootstrapped
1
Ese es mi punto: esta versión fija da la respuesta correcta incluso para el estimador constante. Suponga que está tratando de estimar la media de la población, pero elige un estimador que siempre adivina 0. Entonces será la media real de la muestra, en lugar de 0. Entonces, como , la estimación de sesgo va a menos la media muestral, que es razonable y tiene un valor esperado igual al sesgo verdadero. N tnorte
Evan Wright
Entonces parece que no entiendo muy bien la definición de . La definición en Efron y Tibshirani (en la página que enlazo arriba) parece implicar que es la estimación del complemento basada en la distribución empírica, pero se me escapó el significado operativo. Digamos que tengo algunos datos dimensionales altos que quiero ajustar a alguna función no lineal, y quiero saber si mi estimación de los parámetros de la función no lineal está sesgada o no. ¿Qué es en este caso? La definición de parece clara, pero es nebulosa. t ˜ t i t ttt~yot
Bootstrapped
0

Me resulta útil pensar en los procedimientos de bootstrap en términos de los funcionales de las distribuciones en las que operan. Di un ejemplo en esta respuesta a una pregunta de bootstrap diferente.

La estimación que dio es lo que es: una estimación. Nadie dice que no sufre los problemas que puedan tener las estimaciones estadísticas. Le dará una estimación de sesgo diferente de cero para la media de la muestra, por ejemplo, que todos sabemos es imparcial para empezar. Un problema con este estimador de sesgo es que sufre de variabilidad de muestreo cuando el bootstrap se implementa como Monte Carlo en lugar de una enumeración completa de todas las submuestras posibles (y nadie que ese bootstrap teórico en la práctica, de todos modos).

sisi

StasK
fuente
77
Creo que la pregunta original de Bootstrapped es ortogonal al tema de la variabilidad de Monte Carlo. Incluso si tomamos el número de repeticiones bootstrap hasta el infinito, la fórmula en la pregunta dará una estimación cero para el sesgo de un estimador constante, y dará una estimación distinta de cero para el sesgo de la estimación imparcial habitual de la varianza.
Evan Wright