Estoy ejecutando modelos de regresión lineal y me pregunto cuáles son las condiciones para eliminar el término de intercepción.
Al comparar los resultados de dos regresiones diferentes donde una tiene la intersección y la otra no, noto que el de la función sin la intersección es mucho mayor. ¿Hay ciertas condiciones o suposiciones que debo seguir para asegurarme de que la eliminación del término de intercepción sea válida?
regression
linear-model
r-squared
intercept
analyticsPierce
fuente
fuente
Respuestas:
La respuesta más corta : nunca , a menos que esté seguro de que su aproximación lineal del proceso de generación de datos (modelo de regresión lineal), ya sea por alguna razón teórica o de otro tipo, se ve obligada a pasar por el origen . Si no, los otros parámetros de regresión estarán sesgados, incluso si la intercepción es estadísticamente insignificante (extraño, pero es así, consulte Brooks Econometrics Introductorio, por ejemplo). Finalmente, como a menudo les explico a mis alumnos, al dejar el término de intercepción se asegura que el término residual sea de media cero.
Para su caso de dos modelos necesitamos más contexto. Puede suceder que el modelo lineal no sea adecuado aquí. Por ejemplo, primero debe registrar la transformación si el modelo es multiplicativo. Con procesos de crecimiento exponencial, puede ocurrir ocasionalmente que para el modelo sin la intersección sea "mucho" más alto.R2
Analice los datos, pruebe el modelo con la prueba RESET o cualquier otra prueba de especificación lineal, esto puede ayudar a ver si mi suposición es cierta. Y, construir los modelos más altos es una de las últimas propiedades estadísticas que realmente me preocupan, pero es bueno presentarles a las personas que no están tan familiarizadas con la econometría (hay muchos trucos sucios para hacer una determinación cercana) 1 :)).R2
fuente
Eliminar la intersección es un modelo diferente, pero hay muchos ejemplos en los que es legítimo. Las respuestas hasta ahora ya han discutido en detalle el ejemplo donde la verdadera intercepción es 0. Me enfocaré en algunos ejemplos en los que podemos estar interesados en una parametrización de modelo atípico.
Ejemplo 1: El modelo de estilo ANOVA. Para variables categóricas, generalmente creamos vectores binarios que codifican la pertenencia a grupos. El modelo de regresión estándar se parametriza como intercepción + k - 1 vectores ficticios. La intersección codifica el valor esperado para el grupo "referencia", o el vector omitido, y los vectores restantes prueban la diferencia entre cada grupo y la referencia. Pero en algunos casos, puede ser útil tener el valor esperado de cada grupo.
Ejemplo 2: el caso de los datos estandarizados. En algunos casos, uno puede estar trabajando con datos estandarizados. En este caso, la intersección es 0 por diseño. Creo que un ejemplo clásico de esto fueron los modelos o factores de ecuaciones estructurales de estilo antiguo, que operaban solo en las matrices de datos de covarianza. En el caso a continuación, probablemente sea una buena idea estimar la intercepción de todos modos, aunque solo sea para disminuir el grado adicional de libertad (que realmente debería haber perdido de todos modos porque se estimó la media), pero hay un puñado de situaciones en las que construcción, las medias pueden ser 0 (p. ej., ciertos experimentos donde los participantes asignan calificaciones, pero están obligados a dar la misma cantidad de positivos y negativos).
Ejemplo 3: Modelos multivariados e intersecciones ocultas. Este ejemplo es similar al primero en muchos aspectos. En este caso, los datos se han apilado para que dos variables diferentes estén ahora en un vector largo. Una segunda variable codifica información sobre si el vector de respuesta,,
y
pertenece ampg
odisp
. En este caso, para obtener las intersecciones separadas para cada resultado, suprime la intersección general e incluye ambos vectores ficticios para medir. Este es un tipo de análisis multivariante. Por lo general, no se hace usandolm()
porque ha repetido medidas y probablemente debería permitir la falta de independencia. Sin embargo, hay algunos casos interesantes donde esto es necesario. Por ejemplo, al intentar hacer un análisis de mediación con efectos aleatorios, para obtener la matriz de covarianza de varianza completa, necesita estimar ambos modelos simultáneamente, lo que se puede hacer al apilar los datos y un uso inteligente de los vectores ficticios.No estoy argumentando que las intercepciones generalmente deben eliminarse, pero es bueno ser flexible.
fuente
Hay buenas respuestas aquí. Dos pequeñas cosas:
fuente
No debe abandonar la intersección, independientemente de si es probable o no que alguna vez vea todas las variables explicativas que tienen valores de cero.
Hay una buena respuesta a una pregunta muy similar aquí .
Si elimina la intersección, las otras estimaciones se sesgan. Incluso si el verdadero valor de la intersección es aproximadamente cero (que es todo lo que puede deducir de sus datos), está jugando con las pendientes si lo obliga a ser exactamente cero.
A MENOS: está midiendo algo con un modelo físico muy claro y obvio que exige que la intercepción sea cero (por ejemplo, tiene la altura, el ancho y la longitud de un prisma rectangular como variables explicativas y la variable de respuesta es el volumen con algún error de medición). Si su variable de respuesta es el valor de la casa, definitivamente debe dejar la intercepción.
fuente
OK, entonces has cambiado la pregunta MUCHO
Puede omitir la intercepción cuando sabe que es 0. Eso es todo. Y no, no puede hacerlo porque no es significativamente diferente de 0, debe saber que es 0 o sus residuos están sesgados. Y, en ese caso, es 0, por lo que no hará ninguna diferencia si lo deja fuera ... por lo tanto, nunca lo deje fuera.
El hallazgo que tiene con sugiere que los datos no son lineales. Y, dado que tenía un área como predictor, ese en particular probablemente definitivamente no sea lineal. Podrías transformar el predictor para arreglar eso.R2
fuente
La mayoría de los modelos de regresión múltiple incluyen un término constante (es decir, la intersección), ya que esto garantiza que el modelo será imparcial, es decir, la media de los residuos será exactamente cero. (Los coeficientes en un modelo de regresión se estiman por mínimos cuadrados, es decir, minimizando el error cuadrático medio. Ahora, el error cuadrático medio es igual a la varianza de los errores más el cuadrado de su media: esta es una identidad matemática. Cambio el valor de la constante en el modelo cambia la media de los errores pero no afecta la varianza, por lo tanto, si la suma de los errores al cuadrado debe minimizarse, la constante debe elegirse de modo que la media de los errores sea cero. )
En un modelo de regresión simple, la constante representa la intersección en Y de la línea de regresión, en forma no estandarizada. En un modelo de regresión múltiple, la constante representa el valor que se pronosticaría para la variable dependiente si todas las variables independientes fueran simultáneamente iguales a cero, una situación que puede no ser física o económicamente significativa. Si no está particularmente interesado en lo que sucedería si todas las variables independientes fueran simultáneamente cero, entonces normalmente deja la constante en el modelo independientemente de su importancia estadística. Además de garantizar que los errores en la muestra sean imparciales, la presencia de la constante permite que la línea de regresión "busque su propio nivel" y proporcione el mejor ajuste a los datos que solo pueden ser localmente lineales.
Sin embargo, en casos excepcionales es posible que desee excluir la constante del modelo. Esta es una opción de ajuste del modelo en el procedimiento de regresión en cualquier paquete de software, y a veces se conoce como regresión a través del origen o RTO para abreviar. Por lo general, esto se hará solo si:
Un ejemplo del caso (1) sería un modelo en el que todas las variables, dependientes e independientes, representaran las primeras diferencias de otras series de tiempo. Si retrocede la primera diferencia de Y sobre la primera diferencia de X, está prediciendo directamente los cambios en Y como una función lineal de los cambios en X, sin referencia a los niveles actuales de las variables. En este caso, podría ser razonable (aunque no es obligatorio) suponer que Y no debería cambiar, en promedio, siempre que X no cambie, es decir, que Y no debería tener una tendencia al alza o a la baja en ausencia de cualquier cambio en el nivel de X.
Un ejemplo del caso (2) sería una situación en la que desea utilizar un conjunto completo de variables indicadoras estacionales; por ejemplo, está utilizando datos trimestrales y desea incluir las variables Q1, Q2, Q3 y Q4 que representan aditivo efectos estacionales. Por lo tanto, Q1 podría verse como 1 0 0 0 1 0 0 0 ..., Q2 se vería como 0 1 0 0 0 1 0 0 ... y así sucesivamente. No podría usar los cuatro y una constante en el mismo modelo, ya que Q1 + Q2 + Q3 + Q4 = 1 1 1 1 1 1 1 1. . . . , que es lo mismo que un término constante. Es decir, las cinco variables Q1, Q2, Q3, Q4 y CONSTANT no son linealmente independientes: cualquiera de ellas puede expresarse como una combinación lineal de las otras cuatro. Un prerrequisito técnico para ajustar un modelo de regresión lineal es que las variables independientes deben ser linealmente independientes; de lo contrario, los coeficientes de mínimos cuadrados no pueden determinarse de manera única,
Una advertencia: el cuadrado R y el estadístico F no tienen el mismo significado en un modelo RTO que en un modelo de regresión ordinario, y no están calculados de la misma manera por todo el software. Vea este artículo para algunas advertencias. No debe intentar comparar R cuadrado entre los modelos que incluyen y no incluyen un término constante, aunque está bien comparar el error estándar de la regresión.
Tenga en cuenta que el término "independiente" se usa (al menos) de tres maneras diferentes en la jerga de regresión: cualquier variable individual puede llamarse una variable independiente si se usa como predictor, en lugar de como predictor. Un grupo de variables es linealmente independiente si ninguna de ellas puede expresarse exactamente como una combinación lineal de las otras. Se dice que un par de variables son estadísticamente independientes si no solo son linealmente independientes sino que tampoco son totalmente informativas entre sí. En un modelo de regresión, desea que su variable dependiente sea estadísticamente dependiente de las variables independientes, que deben ser linealmente (pero no necesariamente estadísticamente) independientes entre sí.
fuente
Revisión completa de mis pensamientos. De hecho, dejar caer la intercepción causará un problema de sesgo.
¿Ha considerado centrar sus datos para que una intercepción tenga algún significado y evite explicar cómo algunos valores (irrazonables) podrían dar valores negativos? Si ajusta las tres variables explicativas restando el sqrft medio, el tamaño medio del lote y el baño medio, entonces la intersección ahora indicará el valor (¿de una casa?) Con sdrft, tamaño de lote y baños promedio.
Este centrado no cambiará la relación relativa de las variables independientes. Por lo tanto, ajustar el modelo en los datos centrados seguirá encontrando que los baños son insignificantes. Vuelva a colocar el modelo sin el baño incluido. Aún puede obtener un valor p grande para la intersección, pero debe incluirse y tendrá un modelo de la forma y = a + b (sqrft) + c (lotes).
fuente
Acabo de pasar un tiempo respondiendo una pregunta similar publicada por otra persona, pero estaba cerrada. Aquí hay algunas respuestas excelentes, pero la respuesta que proporciono es un poco más simple. Podría ser más adecuado para personas que tienen una comprensión débil de la regresión.
P1: ¿Cómo interpreto la intercepción en mi modelo?
En los modelos de regresión, el objetivo es minimizar la cantidad de varianza inexplicada en una variable de resultado:
y = b0 + b1⋅x + ϵ
donde y es el valor predicho de su medida de resultado (por ejemplo, log_blood_hg), b0 es la intersección, b1 es la pendiente, x es una variable predictora y ϵ es un error residual.
La intersección (b0) es el valor medio predicho de y cuando todo x = 0. En otras palabras, es el valor de línea de base de y, antes de usar cualquier variable (por ejemplo, especies) para minimizar o explicar aún más la varianza en log_blood_hg .
Al agregar una pendiente (que estima cómo un aumento / disminución de una unidad en log_blood_hg cambia con un aumento de una unidad en x, por ejemplo, especies), agregamos a lo que ya sabemos acerca de la variable de resultado, que es su valor de referencia (es decir intercepción), basado en el cambio en otra variable.
P2: ¿Cuándo es apropiado incluir o no incluir la intercepción, especialmente en lo que respecta al hecho de que los modelos dan resultados muy diferentes?
Para modelos simples como este, nunca es realmente apropiado abandonar la intercepción.
Los modelos dan resultados diferentes cuando suelta la intersección porque en lugar de poner a tierra la pendiente en el valor de línea de base de Y, se ve obligada a pasar por el origen de y, que es 0. Por lo tanto, la pendiente se vuelve más pronunciada (es decir, más potente y significativa ) porque forzó la línea a través del origen, no porque haga un mejor trabajo al minimizar la varianza en y. En otras palabras, ha creado artificialmente un modelo que minimiza la varianza en y al eliminar la intersección o el punto de conexión a tierra inicial para su modelo.
Hay casos en los que es apropiado eliminar la intersección, como cuando se describe un fenómeno con una intersección 0. Puede leer sobre esto aquí , así como más razones por las que eliminar una intercepción no es una buena idea.
fuente
Conclusión: NO DEJE EL INTERCEPTO FUERA DEL MODELO (a menos que realmente sepa realmente lo que está haciendo).
También hay modelos especiales que dejan de lado la intercepción. Un ejemplo son los datos emparejados, los estudios gemelos .
fuente