Configuración básica:
modelo de regresión: donde C es el vector de las variables de control.
Estoy interesado en y espero que y sean negativos. Sin embargo, hay un problema de multicolinealidad en el modelo, el coeficiente de correlación viene dado por, corr ( , 0.9345, corr ( , , corr ( , 0.3019.
Por lo tanto, y están altamente correlacionados, y deberían proporcionar prácticamente la misma información. Corro tres regresiones:
- excluir variable; 2. excluir variable; 3. modelo original con y .
Resultados:
para la regresión 1 y 2, proporciona el signo esperado para y respectivamente y con una magnitud similar. Y y son significativos en el nivel del 10% en ambos modelos después de hacer la corrección HAC en error estándar. es positivo pero no significativo en ambos modelos.
Pero para 3, tiene el signo esperado, pero el signo para es positivo con una magnitud dos veces mayor que en valor absoluto. Y tanto como son insignificantes. Además, la magnitud de reduce casi a la mitad en comparación con la regresión 1 y 2.
Mi pregunta es:
¿Por qué en 3, el signo de vuelve positivo y mucho mayor que en valor absoluto? ¿Hay alguna razón estadística de que pueda voltear el signo y tenga una gran magnitud? ¿O es porque los modelos 1 y 2 sufren un problema variable omitido que infló siempre que tenga un efecto positivo en y? Pero luego, en los modelos de regresión 1 y 2, tanto como deberían ser positivos en lugar de negativos, ya que el efecto total de y en el modelo de regresión 3 es positivo.
La respuesta simple es que no hay una razón profunda.
La forma de pensarlo es que cuando los enfoques multicolineales son perfectos, los valores específicos que se obtienen del ajuste se vuelven cada vez más dependientes de detalles cada vez más pequeños de los datos. Si tuviera que muestrear la misma cantidad de datos de la misma distribución subyacente y luego ajustar, podría obtener valores ajustados completamente diferentes.
fuente