¿Por qué la gente a menudo ejecuta una regresión con y sin variables de control?

8

A menudo ejecuto regresiones de un conjunto de datos de baja n (~ 100 observaciones). A menudo, los resultados solo son significativos con la inclusión de variables de control. Sin embargo, a menudo veo artículos de revistas en los que las personas (siempre con un gran número de observaciones) afirman haber realizado su regresión "con y sin variables de control".

¿Por qué la gente a menudo ejecuta una regresión con y sin variables de control?

ChrisStata
fuente
Entonces, si solo obtengo un resultado cuando controlo estadísticamente algunas variables, ¿qué significa eso?
ChrisStata

Respuestas:

5

Un poco en términos primero. Por definición , la variable de control se mantiene constante durante el estudio, por lo que no puede usarla en regresión. Probablemente se refiera a variables que deberían controlarse estadísticamente . Tales como covariables o factores de bloqueo (como después del diseño experimental de bloques al azar)

Las personas ejecutan regresión o ANOVA con tales variables no solo para eliminar su efecto de las variables predictoras sino principalmente para verificar si su propio efecto es significativo. Si es significativo, su inclusión en el modelo está totalmente garantizada. De lo contrario, es mejor que se excluyan del modelo.

Esto es sobre todo importante para un factor de bloqueo. Si lo deja en el modelo a pesar de que no es significativo, corre el riesgo de perder el efecto de las variables predictoras debido a una disminución en el término df de error , el factor de bloqueo disminuye tanto el error como su df , y parece que existe una situación competitiva. La importancia de los predictores puede subir o bajar dependiendo de "lo que gana" - caída de error suma de cuadrados de caída de su df . Esta puede ser la razón por la cual las personas prefieren modelos más concisos a veces.

Otra razón para esto puede ser que, para muestras tan moderadas como 100 inclusiones, muchos IV, incluso si todos parecen importantes o significativos, conducen a un sobreajuste .

ttnphns
fuente
Sí, lo siento, me refiero a una variable que estoy controlando estadísticamente.
ChrisStata
Ya sea apropiado o no, las covariables a menudo se denominan variables de control o controles en economía.
Peutch
3

Una razón más para incluir covariables es que son importantes en la literatura. Si puede demostrar que alguna covariable que se ha encontrado que tiene grandes efectos en el pasado (ya sea por sí sola o al afectar otros parámetros) NO tiene grandes efectos en su estudio, entonces ha descubierto algo interesante.

Peter Flom
fuente
2

Típicamente, esto significa que hay una regresión con un resultado y una variable de tratamiento. Luego, hay otros controles que podrían agregarse al modelo, otras covariables que pueden ser importantes. Los autores primero ejecutan un modelo simple que solo incluye el tratamiento. Luego, verifican la solidez de sus hallazgos para la inclusión de otras variables. En particular, preguntan si la inclusión de otras covariables reduce o elimina el impacto estimado en el modelo simple.

Además, la inclusión de otras covariables generalmente reduce los errores estándar. En este caso, los autores pueden encontrar que el impacto estimado es relativamente similar entre el modelo simple y el que incluye controles, pero solo en este último la estimación es significativa (generalmente, diferente de 0). Los autores utilizarían el último modelo para realizar inferencia (pruebas de hipótesis, intervalos de confianza) debido a sus errores estándar más pequeños.

Charlie
fuente
1

Además de las respuestas anteriores, existen algunas técnicas de selección de covariables que implican comparar modelos con y sin una variable en su lugar. Y si se desea ilustrar el efecto de agregar una covariable, el modelo bruto (sin ajustar) es necesario como referencia en primer lugar.

Fomite
fuente