¿Qué sucede cuando incluyo una variable al cuadrado en mi regresión?

20

Comienzo con mi regresión OLS: donde D es una variable ficticia, las estimaciones se vuelven diferentes de cero con un valor p bajo. Luego realizo una prueba Ramsey RESET y descubro que tengo alguna especificación incorrecta de la ecuación, por lo tanto, incluyo x al cuadrado: y = β 0 + β 1 x 1 + β 2 x 2 1 + β 3 D + ε

y=β0+β1x1+β2D+ε
y=β0+β1x1+β2x12+β3D+ε
  1. ¿Qué explica el término al cuadrado? (¿Aumento no lineal en Y?)
  2. Al hacer esto, mi estimación D ya no varía de cero, con un valor p alto. ¿Cómo interpreto el término cuadrado en mi ecuación (en general)?

Editar: Mejorando la pregunta.

seini
fuente
1
Razón probable: y D parecen explicar la misma variabilidad en yx12Dy
steadyfish
3
Una cosa que podría ayudar es centrar antes de crear su término cuadrado (ver aquí ). En cuanto a la interpretación de su término al cuadrado, sostengo que es mejor interpretar β 1 x 1 + β 2 x 2 1 como un todo (ver aquí ). Otra cosa es que es posible que tenga una interacción, que medios de adición de β 4 x 1 D + β 5 x 2 1 D . x β1x1+β2x12 β4x1D+β5x12D
Gung - Restablece a Monica
No creo que sea realmente un duplicado de esa pregunta; la solución es diferente (las variables de centrado trabaja aquí, pero no existe, si no me equivoco)
Peter Flom - Restablecer Mónica
@ Peter, interpreto esta pregunta como un subconjunto de "¿Por qué cuando agrego una variable a mi modelo, la estimación del efecto / valor de para algunos otros cambios de variable?", Que se aborda en la otra pregunta. Entre las respuestas a esas preguntas están la colinealidad (a la que alude Gung en su respuesta a esa pregunta) / la superposición de contenido entre los predictores (es decir, entre D y ( x 1 , x 2 1 ) , que sospecho que es el culpable en este caso) . La misma lógica se aplica aquí. No estoy seguro de cuál es la controversia, pero está bien si usted y otros no están de acuerdo. Salud. pD(x1,x12)
Macro

Respuestas:

21

Bueno, primero, la variable ficticia se interpreta como un cambio en la intercepción. Es decir, su coeficiente le da la diferencia en la intersección cuando D = 1 , es decir, cuando D = 1 , la intersección es β 0 + β 3 . Esa interpretación no cambia al agregar el cuadrado x 1 .β3D=1D=1β0+β3x1

Ahora, el punto de agregar un cuadrado a la serie es que asumes que la relación desaparece en cierto punto. Mirando tu segunda ecuación

y=β0+β1x1+β2x12+β3D+ε

Tomando el derivado wrt x1

δyδx1=β1+2β2x1

β1<0

y^=1.3+0.42x10.32x12+0.14D

x1

δyδx1=0.4220.32x1

x1

δyδx1=0x10.66

Ese es el punto en el que la relación tiene su punto de inflexión. Puede echar un vistazo a la salida de Wolfram-Alpha para la función anterior, para visualizar su problema.

x1y

Δy=(β1+2β2x1)Δx

β1x12

Dx1

altabq
fuente
Hola. Si tuviera varios predictores, ¿debería usar derivadas parciales o derivadas totales (diferenciales)?
skan
1
Una derivada parcial sigue siendo la forma correcta de llegar aquí. La interpretación de todos los coeficientes es ceteris paribus , es decir, mantener todo lo demás constante. Eso es exactamente lo que estás haciendo cuando tomas una derivada parcial.
altabq
Vea esta página IDRE de UCLA para complementar la excelente respuesta de @ altabq.
Cyrille
19

Un buen ejemplo de incluir el cuadrado de la variable proviene de la economía laboral. Si asume ycomo salario (o logaritmo de salario) y xcomo edad, entonces incluir x^2significa que está probando la relación cuadrática entre una edad y el salario. El salario aumenta con la edad a medida que las personas adquieren más experiencia, pero a mayor edad, el salario comienza a aumentar a un ritmo decreciente (las personas envejecen y no estarán tan saludables para trabajar como antes) y en algún momento el salario no aumenta ( alcanza el nivel salarial óptimo) y luego comienza a caer (se jubilan y sus ganancias comienzan a disminuir). Entonces, la relación entre salario y edad se invierte en forma de U (efecto del ciclo de vida). En general, para el ejemplo mencionado aquí, agese espera que el coeficiente en sea ​​positivo y que enage^2 es negativo. El punto aquí es que debe haber una base teórica / justificación empírica para incluir el cuadrado de la variable. La variable ficticia, aquí, puede considerarse como la representación del género del trabajador. También puede incluir el término de interacción de género y edad para examinar si el diferencial de género varía según la edad.

Métrica
fuente