Dos formas de usar bootstrap para estimar el intervalo de confianza de los coeficientes en regresión

21

Estoy aplicando un modelo lineal a mis datos:

yyo=β0 0+β1Xyo+ϵyo,ϵyonorte(0 0,σ2).

Me gustaría estimar el intervalo de confianza (IC) de los coeficientes ( , ) usando el método bootstrap. Hay dos formas en que puedo aplicar el método bootstrap: β 1β0 0β1

  1. Ejemplo de predictor de respuesta emparejado: muestree aleatoriamente pares de y aplique una regresión lineal a cada ejecución. Después de ejecutar , obtenemos una colección de coeficientes estimados . Finalmente, calcule el cuantil de . m ^ β j , j = 1 , . . . m ^ β jyyo-Xyometroβj^,j=1,...metroβj^

  2. Error de muestra: Primero aplique la regresión lineal en los datos observados originales, de este modelo obtenemos y el error . Luego, muestree aleatoriamente el error y calcule los nuevos datos con y . Aplicar una vez más la regresión lineal. Después de ejecutar , obtenemos una colección de coeficientes estimados . Finalmente, calcule el cuantil de .βo^ϵyoϵyoβo^yyo=βo^Xyo+ϵyometroβj^,j=1,...,metroβj^

Mis preguntas son:

  • ¿Cómo son diferentes estos dos métodos?
  • ¿Bajo qué suposición están estos dos métodos dando el mismo resultado?
tiantianchen
fuente
77
Yo personalmente no lo usaría como el enfoque predeterminado, sino que recomendaría el intervalo de confianza básico de arranque. Ver p. 8 de www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf. He estado haciendo muchas simulaciones para el modelo logístico binario y he visto una mejor cobertura del intervalo de confianza usando el bootstrap básico que usando el percentil o el bootstrap BCa.
Frank Harrell
1
@FrankHarrell para ser claros, ¿por "básico" te refieres a la rutina de arranque no paramétrica?
ndoogan
3
(1) es el intervalo de confianza no paramétrico del percentil de arranque, no el arranque básico. Tenga en cuenta que el muestreo de es el bootstrap incondicional, que está más libre de suposiciones que el bootstrap condicional que remuestrea los residuos. (X,y)
Frank Harrell
2
Realmente no soy un experto, pero por lo que yo entiendo, 1) a menudo se llama "remuestreo de casos", mientras que el 2) se llama "remuestreo residual" o "remuestreo de fijo ". La elección básica del método no implica el método de cómo calcular los intervalos de confianza después del procedimiento. Obtuve esta información principalmente del tutorial de John Fox . Por lo que yo veo, después de cualquier arranque, puede calcular los CI de arranque básicos (por ejemplo, con in ). ¿O extraño algo aquí? Xboot.ci(my.boot, type="basic")R
COOLSerdash
2
Sí, puedes hacer bootstrapping en clúster. Esto se implementa en la R rms validatey las calibratefunciones.
Frank Harrell

Respuestas:

9

Si los pares de predictores de respuesta se obtuvieron de una población mediante una muestra aleatoria, es seguro utilizar el esquema case / random-x / your-first remuestreo. Si los predictores fueron controlados por el experimentador, o los valores de los predictores fueron establecidos por el experimentador, puede considerar usar un esquema de remuestreo residual / basado en modelo / fijo-x / su segundo.

¿Cómo se diferencian los dos? Una introducción al bootstrap con aplicaciones en R por Davison y Kounen tiene una discusión pertinente a esta pregunta (ver p.9). Consulte también el código R en este apéndice de John Fox , en particular las funciones boot.huber en p.5 para el esquema random-x y boot.huber.fixed en p.10 para el esquema fixed-x. Mientras que en las notas de la conferencia de Shalizi los dos esquemas se aplican a diferentes conjuntos de datos / problemas, el apéndice de Fox ilustra cuán poca diferencia pueden hacer los dos esquemas.

¿Cuándo se puede esperar que ambos entreguen resultados casi idénticos? Una situación es cuando el modelo de regresión se especifica correctamente, por ejemplo, no hay no linealidad no modelada y se cumplen los supuestos de regresión habituales (por ejemplo, errores iid, no valores atípicos). Vea el capítulo 21 del libro de Fox (en el que pertenece indirectamente el apéndice mencionado anteriormente con el código R), particularmente la discusión en la página 598 y el ejercicio 21.3. titulado "Muestreo aleatorio versus fijo en regresión". Para citar del libro

By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be  
reflected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.

También aprenderá de esa discusión por qué bootstrap fixed-x asume implícitamente que la forma funcional del modelo es correcta (aunque no se asume la forma de la distribución del error).

Vea también la diapositiva 12 de esta charla para Society of Actuaries en Irlanda por Derek Bain. También tiene una ilustración de lo que debe considerarse "el mismo resultado":

The approach of re-sampling cases to generate pseudo data is the more usual form of   
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.

The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are  
equivalent.
Hibernando
fuente