Estoy buscando una explicación 1) mecánica y 2) intuitiva de cómo se determinan los efectos de las variables individuales manteniendo constantes otras variables.
En un ejemplo que usa datos de encuestas, ¿qué significa exactamente decir:
"Con edad, sexo e ingresos constantes, el efecto de la educación es ___"
Tengo entendido que con la regresión estamos tratando de recrear el entorno experimental, y en el ejemplo anterior estamos tratando de comparar subpoblaciones con igual edad, sexo, ingresos, etc., pero con diferentes niveles de educación, y calculando la diferencia en media de esas subpoblaciones. Preguntas:
- ¿Es correcta esta intuición?
- ¿Estas subpoblaciones existen necesariamente? ¿Qué sucede si la encuesta no contiene encuestados con exactamente los mismos valores en los controles?
- ¿Cómo se determina la incertidumbre sobre las estimaciones de estas subpoblaciones?
regression
interpretation
FlacoT
fuente
fuente
Respuestas:
La intuición es un tema complicado, depende de los antecedentes de la persona. Por ejemplo, estudié estadística después de estudiar física matemática. Para mí, la intuición está en derivadas parciales. Considere un modelo de regresión Se puede reexpresar como donde
Toma una derivada total de la funciónF( ) :
Así es como la derivada parcial wrtX se define:
En otras palabras, en el modelo lineal simple, sus coeficientes son derivadas parciales (pendientes) con respecto a las variables. Eso es lo que "mantener constante" significa para mí intuitivamente.
fuente
fuente
Como respondió el usuario 122677, la intuición es correcta: en la regresión lineal, cada coeficiente es la cantidad de cambio en el resultado cuando una unidad aumenta el valor de una variable mientras que todas las demás variables permanecen constantes. En otras palabras, los coeficientes son derivadas parciales de la predicción del modelo con respecto a cada variable.
De todos modos, tenga en cuenta que si nuestro modelo incluye interacciones, las variables no se pueden cambiar sin cambiar la interacción y, por lo tanto, esta interpretación de un coeficiente no puede tener sentido como un cambio real. Lo mismo sucede con la regresión polinómica, donde ningún término puede cambiar sin cambiar otros términos.
Sobre la existencia de esas subpoblaciones, no es necesario que existan. En algunos diseños experimentales pueden existir, pero en estudios observacionales con variables continuas es muy poco probable que existan. Por ejemplo:
fuente