Si ejecuta la regresión OLS en datos de sección transversal, ¿debería probar la autocorrelación en los residuos?

Tengo un conjunto de observaciones, independiente del tiempo. Me pregunto si debería ejecutar alguna prueba de autocorrelación. Me parece que no tiene sentido, ya que no hay un componente de tiempo en mis datos. Sin embargo, en realidad probé la prueba LM de correlación en serie e indica una fuerte autocorrelación de residuos. ¿Tiene algún sentido? Lo que estoy pensando es que realmente puedo reorganizar las observaciones en mi conjunto de datos en cualquier orden posible, y esto cambiaría la autocorrelación en los residuos. Entonces la pregunta es: ¿debería importarme la autocorrelación en este caso? ¿Y debo usar Newey-West para ajustar el SE en caso de que la prueba lo indique? ¡Gracias!

multiple-regression least-squares autocorrelation residuals cross-section usuario28479
fuente

Usted dijo correctamente que sin un componente de tiempo sus residuos no pueden correlacionarse en serie. Por lo tanto, una prueba de correlación en serie en este caso no es válida. Las preocupaciones más comunes en los datos de sección transversal son la heterocedasticidad o la correlación espacial (p. Ej., La tasa de criminalidad en la ciudad A afecta la tasa de delincuencia en la ciudad B), pero ambas se corrigen fácilmente con las opciones robustas y agrupadas en Stata.

Andy

Intentemos reformular esto sin usar los términos correlación serial o autocorrelación. La variable dependiente de un modelo de regresión tiene una matriz de varianza condicional, es decir, condicional en las variables independientes. Esperamos que los elementos diagonales de la matriz, es decir, las variaciones condicionales de los elementos de y, no sean cero. Si el modelo es transversal, ¿podemos inferir que los elementos fuera de la diagonal, es decir, las covarianzas de pares de elementos de y, deben ser cero? ¿Seguramente la falta de una interpretación de series de tiempo no elimina esta posibilidad, aunque puede hacerla menos probable?

Adam Bailey

... Un ejemplo, como sugiere Andy, sería la covarianza entre elementos relacionados espacialmente. Un posible ejemplo no espacial es cuando la variable dependiente es el PNB en diferentes países (al mismo tiempo), donde dos países muy alejados pueden tener vínculos comerciales cercanos (por ejemplo, por razones históricas) que dan como resultado una covarianza no nula.

Adam Bailey

Cuando sus datos tienen clústeres, es posible la dependencia transversal. Puede ajustar el SE como sugirió @Andy. Una observación sobre el SE robusto en clúster es que el SE robusto funciona si cada grupo en los datos es pequeño y se observan muchos grupos. Sin embargo, si tiene algunos grupos grandes, el SE robusto del grupo no es válido. De hecho, en el caso del clúster grande, los OLS agrupados podrían ser inconsistentes. Puede referir a Andrews (2005, Econometrica) como referencia.

semibruin

Respuestas:

La verdadera distinción entre los datos es si existe o no un ordenamiento natural de los mismos que corresponde a las estructuras del mundo real y es relevante para el problema en cuestión.

Por supuesto, el "orden natural" más claro (e indiscutible) es el del tiempo, y de ahí la dicotomía habitual "serie transversal / temporal". Pero como se señala en los comentarios, podemos tener datos de series no temporales que, sin embargo, poseen un ordenamiento espacial natural . En tal caso, todos los conceptos y herramientas desarrollados en el contexto del análisis de series temporales se aplican aquí igualmente bien, ya que se supone que debe darse cuenta de que existe un ordenamiento espacial significativo, y no solo preservarlo, sino también examinar lo que puede implicar para la serie del término de error, entre otras cosas relacionadas con todo el modelo (como la existencia de una tendencia, que haría que los datos no sean estacionarios, por ejemplo).

Para un ejemplo (crudo), suponga que recopila datos sobre el número de automóviles que se han detenido en varios establecimientos de parada a lo largo de una carretera, en un día en particular (esa es la variable dependiente). Sus regresores miden las diversas instalaciones / servicios que ofrece cada parada, y tal vez otras cosas como la distancia desde las salidas / entradas de la autopista. Estos establecimientos se ordenan naturalmente a lo largo de la carretera ...

¿Pero esto importa? ¿Deberíamos mantener el orden e incluso preguntarnos si el término de error se correlaciona automáticamente? Ciertamente : suponga que algunas instalaciones / servicios en el establecimiento No 1 en realidad no son funcionales durante este día en particular (este evento sería capturado por el término de error). No obstante, los automóviles que tengan la intención de utilizar estas instalaciones / servicios particulares se detendrán, porque no conocen el problema. Pero se enterarán del problema y, debido al problema , también se detendrán en el próximo establecimiento, No 2, donde, silo que quieren está en oferta, recibirán los servicios y no se detendrán en el establecimiento No 3, pero existe la posibilidad de que el establecimiento No 2 parezca costoso y, después de todo, intentarán también el establecimiento No 3: Esto significa que las variables dependientes de los tres establecimientos pueden no ser independientes, lo que equivale a decir que existe la posibilidad de correlación de los tres términos de error correspondientes, y no "por igual", sino dependiendo de sus respectivas posiciones.

Por lo tanto, se debe preservar el ordenamiento espacial y se deben ejecutar pruebas de autocorrelación, y serán significativas.

Si, por otro lado, no parece existir una ordenación "natural" y significativa para un conjunto de datos específico, entonces la posible correlación entre las observaciones no debe designarse como "autocorrelación" porque sería engañosa y las herramientas específicamente desarrolladas para la ordenación Los datos son inaplicables. Pero es muy posible que exista correlación, aunque en tal caso, es bastante más difícil de detectar y estimar.

Alecos Papadopoulos
fuente