¿Son apropiados los errores estándar de arranque y los intervalos de confianza en regresiones donde se viola el supuesto de homocedasticidad?

13

Si en las regresiones estándar de OLS se violan dos supuestos (distribución normal de errores, homocedasticidad), ¿son los errores estándar de arranque y los intervalos de confianza una alternativa apropiada para llegar a resultados significativos con respecto a la importancia de los coeficientes regresores?

¿Las pruebas de significación con errores estándar de arranque e intervalos de confianza todavía "funcionan" con heterocedasticidad?

En caso afirmativo, ¿cuáles serían los intervalos de confianza aplicables que se pueden utilizar en este escenario (percentil, BC, BCA)?

Finalmente, si el bootstrapping es apropiado en este escenario, ¿cuál sería la literatura relevante que debe leerse y citarse para llegar a esta conclusión? Cualquier sugerencia sería muy apreciada!

David
fuente
1
Si hay tal violación, no creo que bootstrapping la cure. En cambio, ¿por qué no tratar de transformar (registrar) los datos para acercarse a la normalidad y utilizar un error estándar robusto como el del paquete sándwich en R?
B_Miner
La rutina de arranque funciona bien si adapta el esquema de remuestreo a la situación en la que se encuentra.
Glen_b -Reinstala a Monica

Respuestas:

20

Hay al menos tres (puede haber más) enfoques para realizar el arranque para la regresión lineal con datos independientes, pero no distribuidos de manera idéntica. (Si tiene otras violaciones de los supuestos "estándar", por ejemplo, debido a autocorrelaciones con datos de series de tiempo, o agrupamiento debido al diseño de muestreo, las cosas se vuelven aún más complicadas).

  1. Puede volver a muestrear la observación como un todo, es decir, tomar una muestra con reemplazo de de los datos originales { ( y i , x i ) } . Esto será asintóticamente equivalente a realizar la corrección de heteroscedasticidad de Huber-White .(yj,xj){(yi,xi)}
  2. Puede adaptarse a su modelo, obtener los residuales , y volver a muestrear de forma independiente x * j y e * j con el reemplazo de sus respectivas distribuciones empíricas, pero esto rompe los patrones de heterocedasticidad, si hay cualquiera, así que dudo que este bootstrap sea consistente.ei=yixiβ^xjej
  3. Puede realizar una rutina de arranque salvaje en la que muestrea nuevamente el signo del residuo, que controla el segundo momento condicional (y, con algunos ajustes adicionales, también para el tercer momento condicional). Este sería el procedimiento que recomendaría (siempre que pueda entenderlo y defenderlo ante los demás cuando se le pregunte: "¿Qué hizo para controlar la heterocedasticidad? ¿Cómo sabe que funciona?").

La referencia final es Wu (1986) , pero los Anales no son exactamente la lectura del libro ilustrado.

ACTUALIZACIONES basadas en las preguntas de seguimiento del OP formuladas en los comentarios:

El número de réplicas me pareció grande; La única buena discusión de este parámetro de arranque que conozco es en el libro Introducción a Bootstrap de Efron y Tibshirani .

M Hausman y Palmer (2012) sobre comparaciones más específicas en muestras finitas (una versión de este documento está disponible en uno de los sitios web de los autores).

StasK
fuente
¡Muchas gracias por tu ayuda! Permítame una pregunta de seguimiento: los únicos supuestos que infringe son la distribución normal de errores y los supuestos de homocedasticidad. Además, solo me interesa ver si mis coeficientes de regresión son sig. en la dirección esperada o no. La magnitud del efecto no es importante. Creo que lo que he hecho hasta ahora es su opción 1. Arranqué los errores estándar y generé además los intervalos de confianza de arranque. Lo hice usando Stata: vce (bootstrap, reps (2500) bca), estat bootstrap. ¿Eso cura mis supuestos violaciones?
David
No hago diagnósticos de los datos basados ​​solo en su sintaxis, y nadie lo hará. ¿Cuál es el tamaño de su conjunto de datos? reps(2500)es probablemente una exageración, al menos para los errores estándar; Creo que reps(500)está bien para la mayoría de los propósitos prácticos. El libro de introducción de Efron y Tibshirani tiene una sección sobre el número de réplicas. También tienen un capítulo completo sobre regresión, por lo que puede ser otra buena referencia para que la veas.
StasK
Gracias por tu rápida respuesta. El conjunto de datos es ~ 250. Dejando a un lado las preguntas sobre el número de réplicas (¡gracias por el enlace!), ¿Estaría de acuerdo en que los errores estándar de arranque (a modo de remuestreo de observaciones en su conjunto) y / o los intervalos de confianza de arranque (por ejemplo, el percentil o el sesgo corregido) ¿Una forma apropiada de determinar la importancia (o la falta de ella) de un coeficiente de regresión dada la violación de la homocedasticidad y la suposición de distribución normal de errores? ¡Muchas gracias por tu aportación!
David
Sí, diría que es mejor. Si usa Stata, podría obtener una respuesta muy similar usando la robustopción de su regresión. est storeambos resultados y est tab, secompararlos uno al lado del otro.
StasK
Gracias StasK. También he visto el siguiente comentario que hiciste en otro lugar de este sitio: "Bootstrap simple con remuestreo ⇔ estimador robusto de heterocedasticidad de White". En el contexto de mis preguntas como se describe anteriormente: ¿Hay artículos publicados en revistas que hagan este punto?
David