¿Por qué se suprimiría la intersección en la regresión lineal?

20

En una serie de paquetes estadísticos que incluyen SAS, SPSS y quizás más, existe una opción para "suprimir la intercepción". ¿Por qué querrías hacer eso?

usuario333
fuente

Respuestas:

16

Si por alguna razón usted sabe el intercepto (sobre todo si es cero), se puede evitar la pérdida de la varianza en los datos para la estimación de algo que ya saben, y tienen más confianza en los valores que no tiene que estimar.

Un ejemplo algo simplificado es si ya sabe (por conocimiento del dominio) que una variable es (en promedio) un múltiplo de otra, y está tratando de encontrar ese múltiplo.

Nick Sabbe
fuente
No lo entiendo totalmente, pero en un modelo que estoy creando en R, tengo algo como lm (a ~ b / c - 1) que crea interacciones entre byc, y al suprimir la intersección ("- 1" en R), obtengo respuestas más fáciles de interpretar que son esencialmente las mismas que si no suprimo la intercepción. De alguna manera, la interacción lo hace posible.
Wayne
¿Respuestas más fáciles de interpretar que son esencialmente las mismas? Eso parece ser una contradicción. ¿Quizás deberías presentar esto como una nueva pregunta?
Nick Sabbe
Si miro los coeficientes, con la intersección hay una (intersección) y un tempwarmer (una de mis variables es temp que puede ser más cálida o más fría ). Para interpretar los coeficientes, debo saber que (interceptar) corresponde directamente a tempcooler y tempwarmer + (interceptar) es el tempwarmer directamente interpretable . Si suprimo la intercepción, veo tempcooler y tempwarmer directamente. Tal vez una peculiaridad de las fórmulas de R y el modelado lineal, pero ...
Wayne
12

Considere el caso de una covariable categórica de 3 niveles. Si uno tiene una intersección, eso requeriría 2 variables indicadoras. Usando la codificación habitual para las variables indicadoras, el coeficiente para cualquiera de las variables indicadoras es la diferencia de medias en comparación con el grupo de referencia. Al suprimir la intersección, tendría 3 variables que representan la covariable categórica, en lugar de solo 2. Un coeficiente es entonces la estimación media para ese grupo. Un ejemplo más concreto de dónde hacer esto es en ciencias políticas, donde uno puede estar estudiando los 50 estados de los Estados Unidos. En lugar de tener una intersección y 49 variables indicadoras para los estados, a menudo es preferible suprimir la intersección y en su lugar tener 50 variables.

jkd
fuente
Es mucho más fácil interpretar el coeficiente de esa manera
probabilidad
1
Sí, pero se descompone con dos o más variables categóricas.
kjetil b halvorsen
2

Para ilustrar el punto de @Nick Sabbe con un ejemplo específico.

Una vez vi a un investigador presentar un modelo de la edad de un árbol en función de su ancho. Se puede suponer que cuando el árbol está en edad cero, efectivamente tiene un ancho de cero. Por lo tanto, no se requiere una intercepción.

Jeromy Anglim
fuente
8
La sabiduría o falta de ella depende del rango de la variable dependiente de interés. Considere los datos de frenado de automóviles donde tiene velocidades y distancias de frenado. Puede ajustar un modelo cuadrático con o sin intercepción. Las velocidades de interés generalmente comienzan alrededor de 50 km / h y ascienden, por ejemplo, a 130 km / h. Ajustar una cuadrática con intercepción en este caso tiene más sentido, creo, ya que forzar la intercepción a cero puede generar (prácticamente) problemas significativos de falta de ajuste. El hecho de que la "distancia de frenado" de un automóvil parado sea cero no es particularmente relevante para el problema de modelado en cuestión.
cardenal
@ cardinal sí, me preguntaba si debería hacer un punto similar. En algunos contextos de modelado de regresión no lineal, he encontrado un mayor interés en tener un modelo que proporcione un modelo teóricamente plausible que prediga con precisión fuera del rango de los datos (por ejemplo, en la velocidad de datos de la curva de aprendizaje, los modelos no deben predecir velocidades inferiores a 0 segundos ) En tales casos, restringir una intersección a cero puede ser más apropiado incluso si resulta en una caída en la predicción de los datos.
Jeromy Anglim
@cardinal Estoy de acuerdo en que los modelos polinómicos rara vez predicen de manera plausible fuera del rango de los datos, y por lo tanto, limitar la intercepción a 0 en tales modelos rara vez es una buena idea.
Jeromy Anglim
Gracias por tus comentarios. Mi comentario no estaba tan dirigido a los modelos polinomiales. La elección de un cuadrático se basó simplemente en una motivación física real (es decir, mecánica clásica). El punto que estaba tratando de articular era que uno debería considerar cuidadosamente el problema de modelado de interés; a veces hacer algo que es (o parece) "teóricamente injustificado" es en realidad más apropiado estadísticamente.
cardenal