En un modelo lineal simple con una sola variable explicativa,
Encuentro que eliminar el término de intercepción mejora mucho el ajuste (el valor de va de 0.3 a 0.9). Sin embargo, el término de intercepción parece ser estadísticamente significativo.
Con intercepción:
Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta 0.46112 0.04595 10.04 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.2435 on 218 degrees of freedom Multiple R-squared: 0.316, Adjusted R-squared: 0.3129 F-statistic: 100.7 on 1 and 218 DF, p-value: < 2.2e-16
Sin intercepción:
Call: lm(formula = alpha ~ 0 + delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.92474 -0.15021 0.05114 0.21078 0.85480 Coefficients: Estimate Std. Error t value Pr(>|t|) delta 0.85374 0.01632 52.33 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.2842 on 219 degrees of freedom Multiple R-squared: 0.9259, Adjusted R-squared: 0.9256 F-statistic: 2738 on 1 and 219 DF, p-value: < 2.2e-16
¿Cómo interpretaría estos resultados? ¿Debe incluirse un término de intercepción en el modelo o no?
Editar
Aquí están las sumas residuales de cuadrados:
RSS(with intercept) = 12.92305
RSS(without intercept) = 17.69277
r
linear-model
interpretation
r-squared
intercept
Ernest A
fuente
fuente
Respuestas:
En primer lugar, debemos entender quéR2
R
está haciendo el software cuando no se incluye ninguna intercepción en el modelo. Recuerde que el cálculo habitual de cuando hay una intersección es La primera igualdad solo ocurre debido a la inclusión de la intercepción en el modelo , aunque esta sea probablemente la más popular de las dos formas de escribirlo. ¡La segunda igualdad en realidad proporciona la interpretación más general! Este punto también se aborda en esta pregunta relacionada .R 2 = Σ i ( y i - ˉ y ) 2Pero, ¿qué sucede si no hay intercepción en el modelo?
Bueno, en ese caso,
R
( ¡en silencio! ) Usa la forma modificadaAyuda a recordar lo que está tratando de medir. En el primer caso, está comparando su modelo actual con el modelo de referencia que solo incluye una intercepción (es decir, término constante). En el segundo caso, no hay intercepción, por lo que tiene poco sentido compararlo con dicho modelo. Entonces, en su lugar, se calcula , que utiliza implícitamente un modelo de referencia correspondiente solo al ruido .R 2 0R2 R20
En lo que sigue a continuación, me concentro en la segunda expresión para y ya que esa expresión se generaliza a otros contextos y generalmente es más natural pensar en las cosas en términos de residuos.R 2 0R2 R20
Pero, ¿cómo son diferentes y cuándo?
Tomemos una breve digresión en un poco de álgebra lineal y veamos si podemos descubrir qué está sucediendo. En primer lugar, llamemos a los valores ajustados del modelo con intercepción y los valores ajustados del modelo sin interceptar .y^ y~
Podemos reescribir las expresiones para y como y respectivamente.R2 R20
Ahora, desde , entonces si y solo si∥y∥22=∥y−y¯1∥22+ny¯2 R20>R2
El lado izquierdo es mayor que uno ya que el modelo correspondiente a está anidado dentro del de . El segundo término en el lado derecho es la media cuadrática de las respuestas dividida por el error cuadrático medio de un modelo de solo intercepción. Por lo tanto, cuanto mayor sea la media de la respuesta en relación con la otra variación, más "holgura" tenemos y una mayor probabilidad de que domine .y~ y^ R20 R2
Observe que todas las cosas dependientes del modelo están en el lado izquierdo y las cosas que no dependen del modelo están a la derecha.
Ok, entonces, ¿cómo hacemos que la relación en el lado izquierdo sea pequeña?
Recuerde que and donde y son matrices de proyección correspondientes a los subespacios y modo que .y~=P0y y^=P1y P0 P1 S0 S1 S0⊂S1
Entonces, para que la relación sea cercana a uno, necesitamos que los subespacios y sean muy similares. Ahora y difieren solo en si es un vector base o no, por lo que significa que ser un subespacio que ya se encuentre muy cerca de .S0 S1 S0 S1 1 S0 1
En esencia, eso significa que es mejor que nuestro predictor tenga un desplazamiento medio fuerte y que este desplazamiento medio domine la variación del predictor.
Un ejemplo
Aquí intentamos generar un ejemplo con una intersección explícita en el modelo y que se comporta cerca del caso en la pregunta. A continuación se muestra un
R
código simple para demostrar.Esto da el siguiente resultado. Comenzamos con el modelo con intercepción.
Luego, vea qué sucede cuando excluimos la intercepción.
A continuación se muestra una gráfica de los datos con el modelo con intersección en rojo y el modelo sin intersección en azul.
fuente
Basaría mi decisión en un criterio de información como los criterios de Akaike o Bayes-Schwarz en lugar de R ^ 2; incluso entonces no los vería como absolutos.
Si tiene un proceso donde la pendiente está cerca de cero y todos los datos están lejos del origen, su R ^ 2 correcto debería ser bajo ya que la mayor parte de la variación en los datos se debe al ruido. Si intenta ajustar dichos datos a un modelo sin una intercepción, generará un término de pendiente grande e incorrecto y probablemente un R ^ 2 más atractivo si se utiliza la versión libre de intercepción.
El siguiente gráfico muestra lo que sucede en estos casos extremos. Aquí el proceso de generación es que x = 100,100.1, .... e y es solo 100 + ruido aleatorio con media 0 y desviación estándar .1. Los puntos son círculos negros, el ajuste sin la intersección es la línea azul y el ajuste con la intersección (reducción a cero de la pendiente) es la línea roja:
[Lo siento, no me deja publicar el gráfico; ejecuta el código R a continuación para generarlo. Muestra el origen en la esquina inferior izquierda, el grupo de puntos en la esquina superior derecha. El ajuste incorrecto sin intersección va de la esquina inferior izquierda a la esquina superior derecha y el ajuste correcto es una línea paralela al eje x]
El modelo correcto para esto debería tener un R ^ 2 de cero --- ser una constante más un ruido aleatorio. R le dará a usted y R ^ 2 de .99 para el ajuste sin intercepción. Esto no importará mucho si solo usa el modelo para la predicción con valores de x dentro del rango de los datos de entrenamiento, pero fallará miserablemente si x sale del rango estrecho del conjunto de entrenamiento o si está tratando de obtener información verdadera más allá de la predicción
El AIC muestra correctamente que se prefiere el modelo con la intersección. El código R para esto es:
La salida AIC es
Tenga en cuenta que el AIC todavía obtiene el modelo incorrecto en este caso, ya que el modelo verdadero es el modelo constante; pero otros números aleatorios arrojarán datos para los cuales el AIC es más bajo para el modelo constante. Tenga en cuenta que si descarta la pendiente, debe volver a ajustar el modelo sin ella, no intente utilizar la intersección del modelo e ignore la pendiente.
fuente