¿Qué significa (intuitivamente) mantener constantes otras variables en la regresión?

9

Estoy buscando una explicación 1) mecánica y 2) intuitiva de cómo se determinan los efectos de las variables individuales manteniendo constantes otras variables.

En un ejemplo que usa datos de encuestas, ¿qué significa exactamente decir:

"Con edad, sexo e ingresos constantes, el efecto de la educación es ___"

Tengo entendido que con la regresión estamos tratando de recrear el entorno experimental, y en el ejemplo anterior estamos tratando de comparar subpoblaciones con igual edad, sexo, ingresos, etc., pero con diferentes niveles de educación, y calculando la diferencia en media de esas subpoblaciones. Preguntas:

¿Es correcta esta intuición?
¿Estas subpoblaciones existen necesariamente? ¿Qué sucede si la encuesta no contiene encuestados con exactamente los mismos valores en los controles?
¿Cómo se determina la incertidumbre sobre las estimaciones de estas subpoblaciones?

regression interpretation FlacoT
fuente

1

Estrechamente relacionado: ¿Cómo exactamente uno "controla para otras variables"? Posiblemente también de interés: ¿hay alguna diferencia entre "controlar" e "ignorar" otras variables en la regresión múltiple?

gung - Restablece a Monica

¿Son derivados parciales "intuitivos" para usted?

Aksakal

5

La intuición es un tema complicado, depende de los antecedentes de la persona. Por ejemplo, estudié estadística después de estudiar física matemática. Para mí, la intuición está en derivadas parciales. Considere un modelo de regresión Se puede reexpresar como donde

y_{yo} = una + {si}_{X} X_{yo} + {si}_{z} z_{yo} + ε_{yo}

$y_i=a+b_x x_i+b_z z_i+\varepsilon_i$

y_{yo} = F (X_{yo}, z_{yo}) + ε_{yo},

$y_i=f(x_i,z_i)+\varepsilon_i,$

f (x, z) = b_{x} x + b_{z} z

$f(x,z)=b_x x + b_z z$

Toma una derivada total de la función $f()$ :

re F = \frac{\partial F}{\partial X} re X + \frac{\partial F}{\partial z} re z

$df=\frac{\partial f}{\partial x}dx+\frac{\partial f}{\partial z}dz$

Así es como la derivada parcial wrt $x$ se define:

\frac{\partial F}{\partial X} = lim_{Δ X \to 0 0} \frac{F (X + Δ X, z) - F (X, z)}{Δ X}

$\frac{\partial f}{\partial x}=\lim_{\Delta x\to 0} \frac{f(x+\Delta x,z)-f(x,z)}{\Delta x}$ Mantienes constante y te alejas de . La derivada parcial le dice que Haw sensible es a un cambio en . Puede ver que la beta (coeficiente) es la pendiente de la variable de interés:

z

$z$

x

$x$

f

$f$

x

$x$

\frac{\partial F}{\partial X} = {si}_{X}

$\frac{\partial f}{\partial x}=b_x$

En otras palabras, en el modelo lineal simple, sus coeficientes son derivadas parciales (pendientes) con respecto a las variables. Eso es lo que "mantener constante" significa para mí intuitivamente.

Aksakal
fuente

1

Aprecio esta intuición, pero partes de su descripción pueden ser inesperadamente problemáticas para algunas personas. Le llamaría la atención sobre (1) cómo definir una derivada parcial para regresores categóricos y (2) decidir cómo definir derivadas parciales cuando los regresores son funciones de otros regresores, como en la regresión polinómica o cuando se incluyen interacciones.

whuber

2

La intuición es correcta en su base. Trataré de responder de manera breve e intuitiva también.
Esas subpoblaciones necesariamente existen porque las mantiene constantes al: (a) muestrear a sus sujetos con respecto a sus covariables especuladas O (b) pone una restricción a su variabilidad (es decir, varianza = 0). Esto se hace tomando 1 grupo (por ejemplo, solo hombres, solo rubios, etc.) si es una variable categórica o tomando un promedio de una covariable dada (edad, educación, ingresos, etc.).

usuario122677
fuente

66

Esta respuesta parece excluir todas las posibles aplicaciones de regresión a conjuntos de datos no experimentales u observacionales (excepto quizás aquellos que pueden ampliarse con más observaciones, que son raros). Como tal, parece ser innecesariamente restrictivo, y probablemente no haga justicia a los conceptos subyacentes.

whuber

2

Como respondió el usuario 122677, la intuición es correcta: en la regresión lineal, cada coeficiente es la cantidad de cambio en el resultado cuando una unidad aumenta el valor de una variable mientras que todas las demás variables permanecen constantes. En otras palabras, los coeficientes son derivadas parciales de la predicción del modelo con respecto a cada variable.

De todos modos, tenga en cuenta que si nuestro modelo incluye interacciones, las variables no se pueden cambiar sin cambiar la interacción y, por lo tanto, esta interpretación de un coeficiente no puede tener sentido como un cambio real. Lo mismo sucede con la regresión polinómica, donde ningún término puede cambiar sin cambiar otros términos.

Sobre la existencia de esas subpoblaciones, no es necesario que existan. En algunos diseños experimentales pueden existir, pero en estudios observacionales con variables continuas es muy poco probable que existan. Por ejemplo:

En diseños completos de experimentos con variables binarias (o finitas discretas), toda combinación de valores de variables está en la muestra.
En los estudios observacionales con variables continuas, es muy probable que cada observación obtenga valores únicos para todas las variables y, por lo tanto, no es probable que existan dos elementos con todas las variables iguales excepto una.

Pere
fuente

¿Qué significa (intuitivamente) mantener constantes otras variables en la regresión?

Respuestas: