Cambio de signo al agregar una variable más en regresión y con una magnitud mucho mayor

9

Configuración básica:

modelo de regresión: donde C es el vector de las variables de control.y=constant+β1x1+β2x2+β3x3+β4x4+αC+ϵ

Estoy interesado en y espero que y sean negativos. Sin embargo, hay un problema de multicolinealidad en el modelo, el coeficiente de correlación viene dado por, corr ( , 0.9345, corr ( , , corr ( , 0.3019.ββ1β2x1x2)=x1x3)=x2x3)=

Por lo tanto, y están altamente correlacionados, y deberían proporcionar prácticamente la misma información. Corro tres regresiones: x1x2

  1. excluir variable; 2. excluir variable; 3. modelo original con y .x1x2x1x2

Resultados:
para la regresión 1 y 2, proporciona el signo esperado para y respectivamente y con una magnitud similar. Y y son significativos en el nivel del 10% en ambos modelos después de hacer la corrección HAC en error estándar. es positivo pero no significativo en ambos modelos.β2β1β2β1β3

Pero para 3, tiene el signo esperado, pero el signo para es positivo con una magnitud dos veces mayor que en valor absoluto. Y tanto como son insignificantes. Además, la magnitud de reduce casi a la mitad en comparación con la regresión 1 y 2.β1β2β1β1β2β3

Mi pregunta es:

¿Por qué en 3, el signo de vuelve positivo y mucho mayor que en valor absoluto? ¿Hay alguna razón estadística de que pueda voltear el signo y tenga una gran magnitud? ¿O es porque los modelos 1 y 2 sufren un problema variable omitido que infló siempre que tenga un efecto positivo en y? Pero luego, en los modelos de regresión 1 y 2, tanto como deberían ser positivos en lugar de negativos, ya que el efecto total de y en el modelo de regresión 3 es positivo.β2β1β2β3x2β2β1x1x2

ting
fuente

Respuestas:

8

Piensa en este ejemplo:

Recopile un conjunto de datos basado en las monedas en los bolsillos de las personas, la variable / respuesta y es el valor total de las monedas, la variable x1 es el número total de monedas y x2 es el número de monedas que no son cuartos (o el valor más grande de las monedas comunes son para el local).

Es fácil ver que la regresión con x1 o x2 daría una pendiente positiva, pero al incluir ambos en el modelo, la pendiente en x2 sería negativa ya que aumentar el número de monedas más pequeñas sin aumentar el número total de monedas significaría reemplazar monedas grandes con monedas más pequeñas y reduciendo el valor total (y).

Lo mismo puede suceder cada vez que haya correlacionado las variables x, los signos pueden ser fácilmente opuestos entre cuando un término está solo y en presencia de otros.

Greg Snow
fuente
3

Has respondido tu propia pregunta: hay colinealidad.

Un poco de explicación: y son altamente colineales. Pero cuando ingresa ambos en la regresión, la regresión intenta controlar el efecto de las otras variables. En otras palabras, mantenga constante, lo que hacen los cambios en a . Pero el hecho de que estén tan relacionados significa que esta pregunta es tonta y que pueden suceder cosas extrañas.x 2 x 1 x 2 yx1x2x1x2y

Peter Flom - Restablece a Monica
fuente
Muchas gracias. Pero dado que la multicolinealidad en teoría solo infla la varianza pero no afecta el poder de predicción general de las variables altamente correlacionadas, pensé que en el modelo 3 debería proporcionar un resultado similar a en el modelo 1 o en el modelo 2, ya que la correlación por pares de x1 x2 con x3 no es alta (en realidad esta es mi parte confusa). Pero dado que la correlación puede ser realmente desordenada, y en la práctica, no debería esperar esto ya que mi modelo es solo una aproximación del DGP y la correlación con otras variables es importante. β 2x 2 β 1x 1β1x1+β2x2β2x2β1x1
Ting
Si quieres entrar en matemáticas, te recomiendo los libros de David Belsley.
Peter Flom - Restablece a Monica
¡¡¡Estupendo muchas gracias!!! Acabo de solicitar los libros de la biblioteca :)
ting
2

¿Por qué en 3, el signo de β2 se vuelve positivo y mucho mayor que β1 en valor absoluto? ¿Hay alguna razón estadística de que β2 pueda voltear el signo y tenga una gran magnitud?

La respuesta simple es que no hay una razón profunda.

La forma de pensarlo es que cuando los enfoques multicolineales son perfectos, los valores específicos que se obtienen del ajuste se vuelven cada vez más dependientes de detalles cada vez más pequeños de los datos. Si tuviera que muestrear la misma cantidad de datos de la misma distribución subyacente y luego ajustar, podría obtener valores ajustados completamente diferentes.

oneloop
fuente