vcovHC, vcovHAC, NeweyWest: ¿qué función utilizar?

Estoy tratando de actualizar mi modelo basado en lm () para obtener errores y pruebas estándar correctos. Estoy realmente confundido qué matriz de VC usar. El sandwichpaquete ofrece vcovHC, vcovHACy NeweyWest. Mientras que el primero solo explica la heterocedasticidad, los dos últimos explican tanto la correlación serial como la heterocedasticidad. Sin embargo, la documentación no dice mucho sobre la diferencia entre los dos últimos (al menos no lo entiendo). Mirando a la función en sí, me di cuenta de que NeweyWest en realidad llama vcovHAC.

Empíricamente los resultados de coeftest(mymodel, vcov. = vcovHAC)y coeftest(mymodel, vcov. = NeweyWest)son muy diferentes. Si bien vcovHACestá algo cerca de los resultados ingenuos de la película, usando NeweyWest todos los coeficientes se vuelven insignificantes (pruebas incluso cercanas a 1).

regression time-series neweywest hans0l0
fuente

Por lo general, las páginas de ayuda de R dan enlaces a los artículos. Los detalles precisos generalmente residen allí. El artículo de Zeileis, por ejemplo, está disponible gratuitamente y contiene abundante información.

mpiktas

El artículo de Zeileis establece específicamente en qué vcovHACse diferencia de NeweyWest. Para resumir, los diferentes métodos HAC difieren solo en la elección de los pesos. NeweyWesttiene sus pesos especificados, vcovHACes una función general, que le permite suministrar sus propios pesos, y por defecto usa los pesos Andrews.

mpiktas

@mpiktas: gracias por el resumen. Como no he especificado ningún peso, se deben usar los respectivos pesos predeterminados. Ahora que lo sé, quizás debería volver a plantear mi pregunta: ¿Por qué los diferentes pesos predeterminados de vcovHAC y NeweyWest hacen una gran diferencia y cómo determinar los pesos? Quiero decir, ¿sabes qué pesos usan STATA u otros paquetes?

hans0l0

Todos estos cálculos dependen del hecho de que son variables estacionarias, donde son los regresores y son las perturbaciones. La estacionariedad es una propiedad un poco restrictiva, así que verifique si es válida.

x_{t} u_{t}

$x_tu_t$

x_{t}

$x_t$

u_{t}

$u_t$

mpiktas

El "emparedado" en cuestión son dos piezas de pan definidas por la información esperada que encierra una carne definida por la información observada. Vea mis comentarios aquí y aquí . Para una regresión lineal, la ecuación de estimación es:

U (β) = X^{T} (Y - X^{T} β)

$U(\beta) = \mathbf{X}^T\left(Y - \mathbf{X}^T\beta\right)$

La información esperada (pan) es:

A = \frac{\partial U (β)}{\partial β} = - (X^{T} X)

$A = \frac{\partial U(\beta)}{\partial \beta} = -(\mathbf{X}^T\mathbf{X})$

La información observada (carne) es:

B = E (U (β) U (β)^{T}) = X^{T} (Y - X^{T} β) (Y - X^{T} β)^{T} X

$B = E(U(\beta)U(\beta)^T) = \mathbf{X}^T(Y-\mathbf{X}^T\beta)(Y-\mathbf{X}^T\beta)^T\mathbf{X}$

Tenga en cuenta que el término interno es una diagonal de residuos constantes cuando se cumple la suposición de datos independientes de homocedasticidad, entonces el estimador de covarianza intercalado que está dado por es la matriz de covarianza de regresión lineal usual donde es la varianza de los residuos. Sin embargo, eso es bastante estricto. Obtiene una clase de estimadores considerablemente más amplia al relajar los supuestos involucrados alrededor de la matriz residual : . $A^{-1}BA^{-1}$ $\sigma^2 \left(\mathbf{X}^T\mathbf{X}\right)^{-1}$ $\sigma^2$ $n \times n$

R = (Y - X^{T} β) (Y - X^{T} β)

$R = (Y-\mathbf{X}^T\beta)(Y-\mathbf{X}^T\beta)$

El vcovHCestimador "HC0" es consistente incluso cuando los datos no son independientes. Por lo tanto, no diré que "asumimos" que los residuos son independientes, pero diré que usamos "una estructura de covarianza independiente que funcione". Luego, la matriz se reemplaza por una diagonal de los residuos $R$

R_{i i} = (Y_{i} - β X_{I .})^{2}, 0 elsewhere

$R_{ii} = (Y_i - \beta \mathbf{X}_{I.})^2, \quad 0\text{ elsewhere}$

Este estimador funciona muy bien, excepto en muestras pequeñas (<40 a menudo se supone). Los HC1-3 son varias correcciones de muestras finitas. HC3 es generalmente el mejor desempeño.

Sin embargo, si hay efectos autorregresivos, las entradas fuera de la diagonal de no son cero, por lo que se produce una matriz de covarianza escalada basada en estructuras autorregresivas de uso común. Este es el fundamento de la "vcovHAC". Aquí, se producen métodos muy flexibles y generales para estimar el efecto autorregresivo: los detalles pueden estar más allá del alcance de su pregunta. La función "meatHAC" es el caballo de batalla general: el método predeterminado es Andrews. Newey-West es un caso especial del estimador de error autorregresivo general. Estos métodos resuelven uno de dos problemas: 1. a qué velocidad decae la correlación entre las observaciones "adyacentes" y 2. ¿cuál es una distancia razonable entre dos observaciones? Si tiene datos de panel equilibrados, este estimador de covarianza es excesivo. $T$ geegeepaquete en lugar de especificar la estructura de covarianza AR-1o similar.

En cuanto a cuál usar, depende de la naturaleza del análisis de datos y de la pregunta científica. No recomendaría ajustar todos los tipos y elegir el que se vea mejor, ya que es un problema de prueba múltiple. Como mencioné anteriormente, el estimador de vcovHC es consistente incluso en presencia de un efecto autorregresivo, por lo que puede usar y justificar un "modelo de correlación de independencia de trabajo" en una variedad de circunstancias.

AdamO
fuente

vcovHC, vcovHAC, NeweyWest: ¿qué función utilizar?

Respuestas: