¿Cuándo está bien eliminar la intersección en un modelo de regresión lineal?

118

Estoy ejecutando modelos de regresión lineal y me pregunto cuáles son las condiciones para eliminar el término de intercepción.

Al comparar los resultados de dos regresiones diferentes donde una tiene la intersección y la otra no, noto que el de la función sin la intersección es mucho mayor. ¿Hay ciertas condiciones o suposiciones que debo seguir para asegurarme de que la eliminación del término de intercepción sea válida?R2

analyticsPierce
fuente
1
@chi gracias por editar mi pregunta. ¿Hay cosas que debería aclarar o reformular en futuras preguntas?
analyticsPierce
3
Tu pregunta está bien planteada. @chl mejoró amablemente algunos formatos, eso es todo. Implicaba TeXificar el "R ^ 2" (se convirtió en R ^ 2 , que se representa como ). $ R 2$$R2
whuber
1
¿Qué significaría la intercepción en su modelo? De la información en su pregunta, parece que sería el valor esperado de su respuesta cuando sqft = 0 y lotsize = 0 y baths = 0. ¿Eso ocurrirá alguna vez en la realidad?
timbp
1
En lugar de y = a + b1 x1 + b2 x2 + b3x3, ¿puedo omitir a?
Travis
3
NB : Algunos de estos comentarios y respuestas abordan esencialmente la misma pregunta (enmarcada en el contexto de una regresión del precio de la vivienda) que se fusionó con esta como un duplicado.
whuber

Respuestas:

87

La respuesta más corta : nunca , a menos que esté seguro de que su aproximación lineal del proceso de generación de datos (modelo de regresión lineal), ya sea por alguna razón teórica o de otro tipo, se ve obligada a pasar por el origen . Si no, los otros parámetros de regresión estarán sesgados, incluso si la intercepción es estadísticamente insignificante (extraño, pero es así, consulte Brooks Econometrics Introductorio, por ejemplo). Finalmente, como a menudo les explico a mis alumnos, al dejar el término de intercepción se asegura que el término residual sea de media cero.

Para su caso de dos modelos necesitamos más contexto. Puede suceder que el modelo lineal no sea adecuado aquí. Por ejemplo, primero debe registrar la transformación si el modelo es multiplicativo. Con procesos de crecimiento exponencial, puede ocurrir ocasionalmente que para el modelo sin la intersección sea "mucho" más alto.R2

Analice los datos, pruebe el modelo con la prueba RESET o cualquier otra prueba de especificación lineal, esto puede ayudar a ver si mi suposición es cierta. Y, construir los modelos más altos es una de las últimas propiedades estadísticas que realmente me preocupan, pero es bueno presentarles a las personas que no están tan familiarizadas con la econometría (hay muchos trucos sucios para hacer una determinación cercana) 1 :)).R2

Dmitrij Celov
fuente
3
-1 para "nunca", ver ejemplo 1 de la respuesta de Joshuas
Curioso
44
@Curious, "nunca" se escribe con "a menos que" los ejemplos a continuación solo muestren las excepciones cuando es legal eliminar la intercepción. Cuando no conozca el proceso o la teoría de generación de datos, o no se vea obligado a pasar por el origen mediante la estandarización o cualquier otro modelo especial, consérvelo. Mantener la intercepción es como usar la papelera para recoger todas las distorsiones causadas por la aproximación lineal y otras simplificaciones. PD: prácticamente la respuesta muestra que leíste lo más breve :) Muchas gracias a Joshua (+1) por los ejemplos extendidos.
Dmitrij Celov
3
Te perdiste el punto del ejemplo 1 de Joshua y parece que aún lo ignoras por completo. En los modelos con covariable categórica, la eliminación de la intersección da como resultado el mismo modelo con una parametrización diferente. Este es un caso legítimo cuando se puede eliminar la intercepción.
Curioso
2
@Curious, en el ejemplo 1 de Joshua, debe agregar una nueva variable ficticia para el nivel de la variable categórica que anteriormente consideraba como línea de base, y esta nueva variable ficticia tomará el valor de la intersección, por lo que NO está eliminando la intersección, solo renombrándolo y reparameterizando el resto de los parámetros de la covariable categórica. Por lo tanto, el argumento de Dmitrij es válido.
Rufo
59

Eliminar la intersección es un modelo diferente, pero hay muchos ejemplos en los que es legítimo. Las respuestas hasta ahora ya han discutido en detalle el ejemplo donde la verdadera intercepción es 0. Me enfocaré en algunos ejemplos en los que podemos estar interesados ​​en una parametrización de modelo atípico.

Ejemplo 1: El modelo de estilo ANOVA. Para variables categóricas, generalmente creamos vectores binarios que codifican la pertenencia a grupos. El modelo de regresión estándar se parametriza como intercepción + k - 1 vectores ficticios. La intersección codifica el valor esperado para el grupo "referencia", o el vector omitido, y los vectores restantes prueban la diferencia entre cada grupo y la referencia. Pero en algunos casos, puede ser útil tener el valor esperado de cada grupo.

dat <- mtcars
dat$vs <- factor(dat$vs)

## intercept model: vs coefficient becomes difference
lm(mpg ~ vs + hp, data = dat)

Coefficients:
(Intercept)          vs1           hp  
   26.96300      2.57622     -0.05453  

## no intercept: two vs coefficients, conditional expectations for both groups
lm(mpg ~ 0 + vs + hp, data = dat)

Coefficients:
     vs0       vs1        hp  
26.96300  29.53922  -0.05453  

Ejemplo 2: el caso de los datos estandarizados. En algunos casos, uno puede estar trabajando con datos estandarizados. En este caso, la intersección es 0 por diseño. Creo que un ejemplo clásico de esto fueron los modelos o factores de ecuaciones estructurales de estilo antiguo, que operaban solo en las matrices de datos de covarianza. En el caso a continuación, probablemente sea una buena idea estimar la intercepción de todos modos, aunque solo sea para disminuir el grado adicional de libertad (que realmente debería haber perdido de todos modos porque se estimó la media), pero hay un puñado de situaciones en las que construcción, las medias pueden ser 0 (p. ej., ciertos experimentos donde los participantes asignan calificaciones, pero están obligados a dar la misma cantidad de positivos y negativos).

dat <- as.data.frame(scale(mtcars))

## intercept is 0 by design
lm(mpg ~ hp + wt, data = dat)

Coefficients:
(Intercept)           hp           wt  
  3.813e-17   -3.615e-01   -6.296e-01  

## leaving the intercept out    
lm(mpg ~ 0 + hp + wt, data = dat)

Coefficients:
     hp       wt  
-0.3615  -0.6296  

Ejemplo 3: Modelos multivariados e intersecciones ocultas. Este ejemplo es similar al primero en muchos aspectos. En este caso, los datos se han apilado para que dos variables diferentes estén ahora en un vector largo. Una segunda variable codifica información sobre si el vector de respuesta,, ypertenece a mpgo disp. En este caso, para obtener las intersecciones separadas para cada resultado, suprime la intersección general e incluye ambos vectores ficticios para medir. Este es un tipo de análisis multivariante. Por lo general, no se hace usandolm()porque ha repetido medidas y probablemente debería permitir la falta de independencia. Sin embargo, hay algunos casos interesantes donde esto es necesario. Por ejemplo, al intentar hacer un análisis de mediación con efectos aleatorios, para obtener la matriz de covarianza de varianza completa, necesita estimar ambos modelos simultáneamente, lo que se puede hacer al apilar los datos y un uso inteligente de los vectores ficticios.

## stack data for multivariate analysis
dat <- reshape(mtcars, varying = c(1, 3), v.names = "y",
  timevar = "measure", times = c("mpg", "disp"), direction = "long")
dat$measure <- factor(dat$measure)

## two regressions with intercepts only
lm(cbind(mpg, disp) ~ 1, data = mtcars)

Coefficients:
             mpg     disp  
(Intercept)   20.09  230.72

## using the stacked data, measure is difference between outcome means
lm(y ~ measure, data = dat)

Coefficients:
(Intercept)   measurempg  
      230.7       -210.6  

## separate 'intercept' for each outcome
lm(y ~ 0 + measure, data = dat)

Coefficients:
measuredisp   measurempg  
     230.72        20.09  

No estoy argumentando que las intercepciones generalmente deben eliminarse, pero es bueno ser flexible.

Joshua
fuente
77
+1. No creí que la gente dijera rígidamente 'nunca', pero siempre es bueno tener otra perspectiva y esta es una respuesta muy clara y reflexiva. Bienvenido a CV, será genial tenerte como parte de la comunidad.
Gung
3
@gung gracias, tienes razón. He editado ese lenguaje de mi respuesta ya que creo que fue inflamatorio e innecesario.
Joshua
1
@ Joshua: Perdón por hacer una pregunta en una publicación de casi 2 años, pero ¿hay alguna referencia en tu primer ejemplo? Estoy pensando en ejecutar un modelo sin intercepción en mis datos donde la variable predictiva es categórica, y estoy interesado en saber si cada nivel es significativamente diferente de 0. ¡Gracias!
Alex
@Alex Cualquier buen texto de regresión debe hacer (el capítulo 8 del Análisis de regresión / correlación múltiple aplicada para la tercera edición de Behavioral Sciences cubre esto): solo necesita hablar sobre contrastes y cómo codificar variables categóricas. Una forma de pensarlo es que está estimando intercepciones separadas para cada grupo, en lugar de dejar de lado la intercepción.
Joshua
@Joshua, su primer ejemplo ha causado cierta confusión en otras partes de este sitio . Según tengo entendido aquí, está sugiriendo un truco útil para mostrar estimaciones de parámetros sin necesidad de meterse con la adición del valor para la intercepción, y que no está sugiriendo que el curso habitual es usar un modelo con la intercepción eliminada para realizar una anova. En R, en casi todos los casos, uno usaría un modelo con una intercepción para realizar una anova tradicional.
Sal Mangiafico
29

Hay buenas respuestas aquí. Dos pequeñas cosas:

  1. Con respecto a un más alto cuando se cae la intercepción, debe leer esta excelente respuesta de @cardinal. (En resumen, el software estadístico a veces usa una definición diferente para cuando la intercepción se fuerza a 0. Por lo tanto, la informada para modelos con y sin intercepción podría simplemente no ser comparable). R 2 R 2R2R2R2
  2. Varias personas señalan que debe estar seguro de que la intersección debe ser 0 (por razones teóricas) antes de descartarla, y no solo que no es 'significativa'. Creo que es correcto, pero no es toda la historia. También debe saber que la verdadera función de generación de datos es perfectamente lineal en todo el rango de que está trabajando y hasta 0. Recuerde que siempre es posible que la función sea aproximadamente lineal dentro de sus datos, pero en realidad ligeramente curvado Puede ser bastante razonable tratar la función como si fuera lineal dentro del rango de sus observaciones, incluso si no es perfectamente así, pero si no lo esXincluso si la verdadera intersección es 0 .
gung
fuente
2
@AdamO hace un punto similar al # 2 aquí: coeficiente de regresión lineal positivo , pero desarrolla la idea mucho más completamente.
Gung
14

No debe abandonar la intersección, independientemente de si es probable o no que alguna vez vea todas las variables explicativas que tienen valores de cero.

Hay una buena respuesta a una pregunta muy similar aquí .

Si elimina la intersección, las otras estimaciones se sesgan. Incluso si el verdadero valor de la intersección es aproximadamente cero (que es todo lo que puede deducir de sus datos), está jugando con las pendientes si lo obliga a ser exactamente cero.

A MENOS: está midiendo algo con un modelo físico muy claro y obvio que exige que la intercepción sea cero (por ejemplo, tiene la altura, el ancho y la longitud de un prisma rectangular como variables explicativas y la variable de respuesta es el volumen con algún error de medición). Si su variable de respuesta es el valor de la casa, definitivamente debe dejar la intercepción.

Peter Ellis
fuente
1
¿Puede explicar por qué necesitamos la intercepción para la predicción del precio de la vivienda? ¿Por qué toda la X sería cero para cualquier casa?
Elfo
10

OK, entonces has cambiado la pregunta MUCHO

Puede omitir la intercepción cuando sabe que es 0. Eso es todo. Y no, no puede hacerlo porque no es significativamente diferente de 0, debe saber que es 0 o sus residuos están sesgados. Y, en ese caso, es 0, por lo que no hará ninguna diferencia si lo deja fuera ... por lo tanto, nunca lo deje fuera.

El hallazgo que tiene con sugiere que los datos no son lineales. Y, dado que tenía un área como predictor, ese en particular probablemente definitivamente no sea lineal. Podrías transformar el predictor para arreglar eso.R2

John
fuente
2
¿Qué pasa cuando deseamos probar la cointegración usando Engle / Granger de 2 pasos? en.wikipedia.org/wiki/Cointegration
Jase
5

La mayoría de los modelos de regresión múltiple incluyen un término constante (es decir, la intersección), ya que esto garantiza que el modelo será imparcial, es decir, la media de los residuos será exactamente cero. (Los coeficientes en un modelo de regresión se estiman por mínimos cuadrados, es decir, minimizando el error cuadrático medio. Ahora, el error cuadrático medio es igual a la varianza de los errores más el cuadrado de su media: esta es una identidad matemática. Cambio el valor de la constante en el modelo cambia la media de los errores pero no afecta la varianza, por lo tanto, si la suma de los errores al cuadrado debe minimizarse, la constante debe elegirse de modo que la media de los errores sea cero. )

En un modelo de regresión simple, la constante representa la intersección en Y de la línea de regresión, en forma no estandarizada. En un modelo de regresión múltiple, la constante representa el valor que se pronosticaría para la variable dependiente si todas las variables independientes fueran simultáneamente iguales a cero, una situación que puede no ser física o económicamente significativa. Si no está particularmente interesado en lo que sucedería si todas las variables independientes fueran simultáneamente cero, entonces normalmente deja la constante en el modelo independientemente de su importancia estadística. Además de garantizar que los errores en la muestra sean imparciales, la presencia de la constante permite que la línea de regresión "busque su propio nivel" y proporcione el mejor ajuste a los datos que solo pueden ser localmente lineales.

Sin embargo, en casos excepcionales es posible que desee excluir la constante del modelo. Esta es una opción de ajuste del modelo en el procedimiento de regresión en cualquier paquete de software, y a veces se conoce como regresión a través del origen o RTO para abreviar. Por lo general, esto se hará solo si:

  1. es posible imaginar que todas las variables independientes asuman el valor cero simultáneamente, y usted siente que, en este caso, debería seguir lógicamente que la variable dependiente también será igual a cero; si no
  2. la constante es redundante con el conjunto de variables independientes que desea usar.

Un ejemplo del caso (1) sería un modelo en el que todas las variables, dependientes e independientes, representaran las primeras diferencias de otras series de tiempo. Si retrocede la primera diferencia de Y sobre la primera diferencia de X, está prediciendo directamente los cambios en Y como una función lineal de los cambios en X, sin referencia a los niveles actuales de las variables. En este caso, podría ser razonable (aunque no es obligatorio) suponer que Y no debería cambiar, en promedio, siempre que X no cambie, es decir, que Y no debería tener una tendencia al alza o a la baja en ausencia de cualquier cambio en el nivel de X.

Un ejemplo del caso (2) sería una situación en la que desea utilizar un conjunto completo de variables indicadoras estacionales; por ejemplo, está utilizando datos trimestrales y desea incluir las variables Q1, Q2, Q3 y Q4 que representan aditivo efectos estacionales. Por lo tanto, Q1 podría verse como 1 0 0 0 1 0 0 0 ..., Q2 se vería como 0 1 0 0 0 1 0 0 ... y así sucesivamente. No podría usar los cuatro y una constante en el mismo modelo, ya que Q1 + Q2 + Q3 + Q4 = 1 1 1 1 1 1 1 1. . . . , que es lo mismo que un término constante. Es decir, las cinco variables Q1, Q2, Q3, Q4 y CONSTANT no son linealmente independientes: cualquiera de ellas puede expresarse como una combinación lineal de las otras cuatro. Un prerrequisito técnico para ajustar un modelo de regresión lineal es que las variables independientes deben ser linealmente independientes; de lo contrario, los coeficientes de mínimos cuadrados no pueden determinarse de manera única,

Una advertencia: el cuadrado R y el estadístico F no tienen el mismo significado en un modelo RTO que en un modelo de regresión ordinario, y no están calculados de la misma manera por todo el software. Vea este artículo para algunas advertencias. No debe intentar comparar R cuadrado entre los modelos que incluyen y no incluyen un término constante, aunque está bien comparar el error estándar de la regresión.

Tenga en cuenta que el término "independiente" se usa (al menos) de tres maneras diferentes en la jerga de regresión: cualquier variable individual puede llamarse una variable independiente si se usa como predictor, en lugar de como predictor. Un grupo de variables es linealmente independiente si ninguna de ellas puede expresarse exactamente como una combinación lineal de las otras. Se dice que un par de variables son estadísticamente independientes si no solo son linealmente independientes sino que tampoco son totalmente informativas entre sí. En un modelo de regresión, desea que su variable dependiente sea estadísticamente dependiente de las variables independientes, que deben ser linealmente (pero no necesariamente estadísticamente) independientes entre sí.

usuario62524
fuente
2
¿A qué artículo te refieres?
Gung
2

Revisión completa de mis pensamientos. De hecho, dejar caer la intercepción causará un problema de sesgo.

¿Ha considerado centrar sus datos para que una intercepción tenga algún significado y evite explicar cómo algunos valores (irrazonables) podrían dar valores negativos? Si ajusta las tres variables explicativas restando el sqrft medio, el tamaño medio del lote y el baño medio, entonces la intersección ahora indicará el valor (¿de una casa?) Con sdrft, tamaño de lote y baños promedio.

Este centrado no cambiará la relación relativa de las variables independientes. Por lo tanto, ajustar el modelo en los datos centrados seguirá encontrando que los baños son insignificantes. Vuelva a colocar el modelo sin el baño incluido. Aún puede obtener un valor p grande para la intersección, pero debe incluirse y tendrá un modelo de la forma y = a + b (sqrft) + c (lotes).

RGF
fuente
1

Acabo de pasar un tiempo respondiendo una pregunta similar publicada por otra persona, pero estaba cerrada. Aquí hay algunas respuestas excelentes, pero la respuesta que proporciono es un poco más simple. Podría ser más adecuado para personas que tienen una comprensión débil de la regresión.

P1: ¿Cómo interpreto la intercepción en mi modelo?

En los modelos de regresión, el objetivo es minimizar la cantidad de varianza inexplicada en una variable de resultado:

y = b0 + b1⋅x + ϵ

donde y es el valor predicho de su medida de resultado (por ejemplo, log_blood_hg), b0 es la intersección, b1 es la pendiente, x es una variable predictora y ϵ es un error residual.

La intersección (b0) es el valor medio predicho de y cuando todo x = 0. En otras palabras, es el valor de línea de base de y, antes de usar cualquier variable (por ejemplo, especies) para minimizar o explicar aún más la varianza en log_blood_hg .

Al agregar una pendiente (que estima cómo un aumento / disminución de una unidad en log_blood_hg cambia con un aumento de una unidad en x, por ejemplo, especies), agregamos a lo que ya sabemos acerca de la variable de resultado, que es su valor de referencia (es decir intercepción), basado en el cambio en otra variable.

P2: ¿Cuándo es apropiado incluir o no incluir la intercepción, especialmente en lo que respecta al hecho de que los modelos dan resultados muy diferentes?

Para modelos simples como este, nunca es realmente apropiado abandonar la intercepción.

Los modelos dan resultados diferentes cuando suelta la intersección porque en lugar de poner a tierra la pendiente en el valor de línea de base de Y, se ve obligada a pasar por el origen de y, que es 0. Por lo tanto, la pendiente se vuelve más pronunciada (es decir, más potente y significativa ) porque forzó la línea a través del origen, no porque haga un mejor trabajo al minimizar la varianza en y. En otras palabras, ha creado artificialmente un modelo que minimiza la varianza en y al eliminar la intersección o el punto de conexión a tierra inicial para su modelo.

Hay casos en los que es apropiado eliminar la intersección, como cuando se describe un fenómeno con una intersección 0. Puede leer sobre esto aquí , así como más razones por las que eliminar una intercepción no es una buena idea.

PyjamaNinja
fuente
1

y=α+βx+ϵ
α=0yx=0

R2R2R2

Conclusión: NO DEJE EL INTERCEPTO FUERA DEL MODELO (a menos que realmente sepa realmente lo que está haciendo).

Xs=vt

También hay modelos especiales que dejan de lado la intercepción. Un ejemplo son los datos emparejados, los estudios gemelos .

kjetil b halvorsen
fuente