Bootstrap: la estimación está fuera del intervalo de confianza

10

Hice un arranque con un modelo mixto (varias variables con interacción y una variable aleatoria). Obtuve este resultado (solo parcial):

> boot_out

ORDINARY NONPARAMETRIC BOOTSTRAP

Call:
boot(data = a001a1, statistic = bootReg, R = 1000)

Bootstrap Statistics :
          original        bias     std. error
t1*   4.887383e+01 -1.677061e+00 4.362948e-01
t2*   3.066825e+01  1.264024e+00 5.328387e-01
t3*   8.105422e+01  2.368599e+00 6.789091e-01
t4*   1.620562e+02  4.908711e+00 1.779522e+00
......

Ahora, quería obtener los intervalos de confianza para la intercepción:

> boot.ci(boot_out,type=c("norm","basic","perc"), index=1)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 1000 bootstrap replicates

CALL : 
boot.ci(boot.out = boot_out, type = c("norm", "basic", 
"perc"), index = 1)

Intervals : 
Level      Normal              Basic              Percentile     
95%   (49.70, 51.41 )   (49.70, 51.41 )   (46.34, 48.05 )  
Calculations and Intervals on Original Scale

El sesgo corregido estimado es:

48.873 -1.677
1 47.196

El problema que tengo es que los IC normales y básicos están fuera de la estimación (original y corregida). Me pregunto cómo lidiar con eso.

Actualización 1:
Aquí hay preguntas similares con muchas respuestas.

giordano
fuente
2
Solo un comentario: Efron y Tibshirani (1993) en el libro clásico estaban argumentando en contra de la corrección de prejuicios diciendo que es una práctica "peligrosa" y "problemática" que podría conducir a un mayor error estándar.
Tim
@Tim Gracias por tu comentario. Echaré un vistazo al libro. Tal vez, una solución es usar las estimaciones y el bootstrap se * para calcular los intervalos de confianza. En mi caso, el sesgo afecta las estimaciones solo ligeramente.
giordano

Respuestas:

1

La dificultad que enfrenta es de las matemáticas implícitas. Un estimador de centro de ubicación, o un estimador de intervalo, puede considerarse como la minimización de una función de costo sobre una distribución. La media muestral sobre el gaussiano minimiza la pérdida cuadrática, mientras que la mediana minimiza la función de pérdida lineal absoluta sobre el gaussiano. Aunque en la población se encuentran en el mismo punto, se descubren utilizando diferentes funciones de costo.

Le damos un algoritmo y decimos "haga esto", pero antes de que se desarrollara el algoritmo, alguien resolvió un problema de optimización.

Ha aplicado cuatro funciones de costo diferentes que le dan tres intervalos y un estimador de puntos. Dado que las funciones de costo son diferentes, le proporcionan diferentes puntos e intervalos. No hay nada que hacer al respecto, excepto unificar manualmente la metodología.

Debe encontrar los documentos subyacentes y mirar el código subyacente para comprender cuáles se asignan a qué tipos de problemas.

Lamento decir esto, pero el software te traicionó. Hizo su trabajo, y en promedio esto funciona muy bien, pero obtuviste la muestra donde el software no funcionará. O, más bien, está funcionando perfectamente y necesita realmente retroceder a través de la literatura para determinar lo que realmente está haciendo.

Dave Harris
fuente
Gracias por hacer su trabajo, y en promedio esto funciona muy bien, pero obtuviste la muestra donde el software no funcionará y las otras ideas. De hecho, la muestra es extraña, por eso quería usar Bootsstrap para calcular CI. Obviamente, este método no parece tan simple como parece.
giordano