A menudo se afirma que bootstrapping puede proporcionar una estimación del sesgo en un estimador.
Si es la estimación para alguna estadística, y son las réplicas de bootstrap (con i \ in \ {1, \ cdots, N \} ), entonces la estimación de bootstrap de sesgo es \ begin {ecation} \ mathrm {sesgo} _t \ approx \ frac {1} {N} \ sum_i \ tilde {t} _i- \ hat t \ end {ecuación} que parece extremadamente simple y poderoso, hasta el punto de ser inquietante. ~ t ii∈{1,⋯,N}biunst≈1
No puedo entender cómo es esto posible sin tener un estimador imparcial de la estadística ya. Por ejemplo, si mi estimador simplemente devuelve una constante que es independiente de las observaciones, la estimación de sesgo anterior es claramente inválida.
Aunque este ejemplo es patológico, no puedo ver cuáles son los supuestos razonables sobre el estimador y las distribuciones que garantizarán que la estimación de arranque sea razonable.
Intenté leer las referencias formales, pero no soy estadístico ni matemático, así que no se aclaró nada.
¿Alguien puede proporcionar un resumen de alto nivel de cuándo se puede esperar que la estimación sea válida? Si conoces buenas referencias sobre el tema, eso también sería genial.
Editar:
La suavidad del estimador a menudo se cita como un requisito para que funcione el bootstrap. ¿Podría ser que uno también requiera algún tipo de inversión local de la transformación? El mapa constante claramente no satisface eso.
Respuestas:
El problema que describe es un problema de interpretación, no uno de validez. La estimación de sesgo de arranque para su estimador constante no es inválida, de hecho es perfecta.
La estimación bootstrap de sesgo es entre un estimador y un parámetro donde es alguna distribución desconocida y una muestra de . La función es algo que, en principio, podría calcular si tuviera a mano la población. Algunas veces nos toman el plug-in estimación de usando el empírica distribución en el lugar de . Esto es presumiblemente lo que usted describe arriba. En todos los casos, la estimación inicial del sesgo es dondeθ=t(F),FxFt(F)s(x)=t( F ),t(F) F Fbiunaes F =E F [s(x*)]-t( Fθ^= s ( x ) θ = t ( F) , F X F t ( F) s ( x ) = t ( F^) , t ( F) F^ F x ∗ x
La constante es un plug-in estimación para ese mismo constante perfecta:do La población es de y la muestra , la distribución empírica, que se aproxima . Si pudieras evaluar , obtendrías . Cuando calcula la estimación del complemento también obtiene . Sin prejuicios, como era de esperar.~ F F t ( F ) = c c t ( F ) = c c∼ F ∼ F^ F t ( F) = c do t ( F^) = c do
Un caso bien conocido en el que hay un sesgo en la estimación del complemento es en la estimación de la varianza, de ahí la corrección de Bessel. A continuación demuestro esto. La estimación del sesgo bootstrap no es tan mala:t ( F^)
En su lugar, podríamos tomar como la media de la población y , situación en la que en la mayoría de los casos debería haber un sesgo claro: s ( x ) = ct ( F) s ( x ) = c
Nuevamente, la estimación de bootstrap no es tan mala.
fuente
Comete un error y tal vez esa es la razón por la que es confuso. Tu dices:
Bootstrap no se trata de cuánto está sesgado su método, sino de cuánto están sesgados sus resultados obtenidos por alguna función.
Si elige el método estadístico apropiado para analizar sus datos, y se cumplen todos los supuestos de este método, y realizó sus cálculos correctamente, entonces su método estadístico debería proporcionarle la "mejor" estimación posible que se puede obtener utilizando sus datos .
La idea de bootstrap es tomar muestras de sus datos de la misma manera que tomó muestras de sus casos de la población, por lo que es una especie de réplica de su muestreo. Esto le permite obtener una distribución aproximada (usando palabras de Efrons) de su valor y, por lo tanto, evaluar el sesgo de su estimación.
Sin embargo, lo que argumento es que su ejemplo es engañoso y, por lo tanto, no es el mejor ejemplo para discutir bootstrap. Como hubo malentendidos en ambos lados, permítanme actualizar mi respuesta y escribirla de manera más formal para ilustrar mi punto.
El sesgo para que sea una estimación del valor verdadero se define como: thetaθ^ θ
dónde:
donde es el estimador.sol( ⋅ )
Como señala Larry Wasserman en su libro "Todas las estadísticas" :
El estimador constante, siendo una función constante de : no cumple con este requisito ya que es independiente de los datos y un número creciente de observaciones no lo haría acercarse al valor verdadero (a menos que sea por pura suerte o tener supuestos a priori muy sólidos sobre es que ).X sol( X) = λ θ λ λ = θ
El estimador constante no cumple el requisito básico para ser un estimador razonable y, por lo tanto, es imposible estimar su sesgo porque no se aproxima a incluso con . Es imposible hacerlo con bootstrap y con cualquier otro método, por lo que no es un problema con bootstrap.θ^norte θ n → ∞
fuente
Creo que tu fórmula está mal. La última debería tener una estrella en lugar de un sombrero: b i a s t ≈ 1t
Desea utilizar el estadístico real evaluado en la distribución empírica (a menudo esto es fácil, ya que la muestra original es un conjunto finito), en lugar de la estimación. En algunos casos, estos pueden ser los mismos (por ejemplo, la media empírica es la misma que la media de la muestra), pero en general no lo serán. Usted dio un caso en el que son diferentes, pero un ejemplo menos patológico es el estimador imparcial habitual de la varianza, que no es lo mismo que la varianza de la población cuando se aplica a una distribución finita.
Si la estadística no tiene sentido en la distribución empírica (por ejemplo, si supone una distribución continua), entonces no debe usar el arranque de vainilla. Puede reemplazar la distribución empírica con una estimación de densidad del núcleo (arranque suave), o si sabe que la distribución original se encuentra en alguna familia en particular, puede reemplazar la distribución empírica con la estimación máxima probable de esa familia (arranque paramétrico).t
TL / DR: El método bootstrap no es mágico. Para obtener una estimación imparcial del sesgo, debe poder calcular el parámetro de interés exactamente en una distribución finita.
fuente
Me resulta útil pensar en los procedimientos de bootstrap en términos de los funcionales de las distribuciones en las que operan. Di un ejemplo en esta respuesta a una pregunta de bootstrap diferente.
La estimación que dio es lo que es: una estimación. Nadie dice que no sufre los problemas que puedan tener las estimaciones estadísticas. Le dará una estimación de sesgo diferente de cero para la media de la muestra, por ejemplo, que todos sabemos es imparcial para empezar. Un problema con este estimador de sesgo es que sufre de variabilidad de muestreo cuando el bootstrap se implementa como Monte Carlo en lugar de una enumeración completa de todas las submuestras posibles (y nadie que ese bootstrap teórico en la práctica, de todos modos).
fuente