Interpretación de la salida lm () de R

234

Las páginas de ayuda en R suponen que sé lo que significan esos números, pero no lo sé. Estoy tratando de entender intuitivamente cada número aquí. Solo publicaré el resultado y comentaré lo que descubrí. Puede haber (habrá) errores, ya que escribiré lo que supongo. Principalmente me gustaría saber qué significa el valor t en los coeficientes y por qué imprimen el error estándar residual.

Call:
lm(formula = iris$Sepal.Width ~ iris$Petal.Width)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.09907 -0.23626 -0.01064  0.23345  1.17532 

Este es un resumen de 5 puntos de los residuos (su media es siempre 0, ¿verdad?). Los números se pueden usar (supongo que aquí) para ver rápidamente si hay grandes valores atípicos. También puede verlo aquí si los residuos están lejos de estar normalmente distribuidos (deberían estar normalmente distribuidos).

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)       3.30843    0.06210  53.278  < 2e-16 ***
iris$Petal.Width -0.20936    0.04374  -4.786 4.07e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Estimaciones , calculadas por regresión de mínimos cuadrados. Además, el error estándar es . Me gustaría saber cómo se calcula esto. No tengo idea de dónde provienen el valor t y el valor p correspondiente. Sé que debería estar distribuido normalmente, pero ¿cómo se calcula el valor t?βi^σβiβ^

Residual standard error: 0.407 on 148 degrees of freedom

1npϵTϵ , supongo. Pero, ¿por qué calculamos eso y qué nos dice?

Multiple R-squared: 0.134,  Adjusted R-squared: 0.1282 

R2=sy^2sy2 , que es . La relación es cercana a 1 si los puntos se encuentran en una línea recta, y 0 si son aleatorios. ¿Cuál es el R cuadrado ajustado?i=1n(yi^y¯)2i=1n(yiy¯)2

F-statistic: 22.91 on 1 and 148 DF,  p-value: 4.073e-06 

F y p para todo el modelo, no solo para s como antes. El valor F es . Cuanto más grande crece, más improbable es que los 's no tengan ningún efecto en absoluto.βisy^2ϵiβ

Alexander Engelhardt
fuente
los residuos no se desvían tanto de la normalidad, ¿por qué piensas eso?
nico
@nico: Creo que @Alexx Hardt estaba hablando hipotéticamente. Es decir, una vez podría usar el resumen de cinco números para ver si los residuos se estaban desviando de lo normal
Gavin Simpson
@Gavin Simpson: tienes razón, leí mal la oración. Haga caso omiso de mi comentario anterior.
nico
99
Pequeñas objeciones: no se puede decir nada sobre la normalidad o la no normalidad en función de esos 5 cuantiles solos. Todo lo que puede decir con base en ese resumen es si los residuos estimados son aproximadamente simétricos alrededor de cero. Podría dividir los cuantiles informados por el error estándar residual estimado y comparar estos valores con los cuantiles respectivos de N (0,1), pero mirar un gráfico QQ probablemente tenga más sentido.
fabians
55
Una nota aquí: el modelo no es , sino . se describe correctamente en la respuesta a continuación, pero no menciona explícitamente que está mal caracterizada en la pregunta, por lo que es posible que alguien no note la discrepancia. FSSmodel/SSerrorMSmodel/MSerrorF
Gung

Respuestas:

203

Resumen de cinco puntos

Sí, la idea es dar un resumen rápido de la distribución. Debería ser aproximadamente simétrico respecto a la media, la mediana debería estar cerca de 0, los valores 1Q y 3Q deberían ser valores aproximadamente similares.

Coeficientes yβi^s

Cada coeficiente en el modelo es una variable aleatoria gaussiana (normal). El es la estimación de la media de la distribución de esa variable aleatoria, y el error estándar es la raíz cuadrada de la varianza de esa distribución. Es una medida de la incertidumbre en la estimación de .βi^βi^

Puede ver cómo se calculan estos (bueno, las fórmulas matemáticas utilizadas) en Wikipedia . Tenga en cuenta que cualquier programa de estadísticas respetuoso no utilizará las ecuaciones matemáticas estándar para calcular el porque hacerlo en una computadora puede conducir a una gran pérdida de precisión en los cálculos.βi^

t -estadisticas

Las estadísticas son las estimaciones ( ) divididas por sus errores estándar ( ), por ejemplo, . Suponiendo que tiene el mismo modelo en objeto que su Q:tβi^σi^ti=βi^σi^mod

> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)

entonces los informes valores R se calculan como:t

> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width 
  53.277950   -4.786461 

Donde coef(mod)están los , y da las raíces cuadradas de los elementos diagonales de la matriz de covarianza de los parámetros del modelo, que son los errores estándar de los parámetros ( ).βi^sqrt(diag(vcov(mod)))σi^

El valor p es la probabilidad de lograr atan grande o mayor que el valor t absoluto observado si la hipótesis nula ( ) era verdadera, donde es . Se calculan como (usando desde arriba):|t|H0H0βi=0tstats

> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
 (Intercept)  Petal.Width 
1.835999e-98 4.073229e-06

Entonces calculamos la probabilidad de la cola superior de lograr los valores que hicimos a partir de una distribución con grados de libertad iguales a los grados residuales de libertad del modelo. Esto representa la probabilidad de lograr un valor mayor que los valores absolutos de los s observados . Se multiplica por 2, porque, por supuesto, puede ser grande en la dirección negativa.ttttt

Error estándar residual

El error estándar residual es una estimación del parámetro . La suposición en mínimos cuadrados ordinarios es que los residuos se describen individualmente por una distribución gaussiana (normal) con media 0 y desviación estándar . La relaciona con el supuesto de varianza constante; cada residual tiene la misma varianza y esa varianza es igual a .σσσσ2

ajustadoR2

ajustado se calcula como:R2

1(1R2)n1np1

El ajustado es lo mismo que , pero ajustado por la complejidad (es decir, el número de parámetros) del modelo. Dado un modelo con un solo parámetro, con un cierto , si agregamos otro parámetro a este modelo, el del nuevo modelo tiene que aumentar, incluso si el parámetro agregado no tiene poder estadístico. El ajustado explica esto al incluir el número de parámetros en el modelo.R2R2R2R2R2

F estadística

LaFSSR/SSEanova()

> anova(mod)
Analysis of Variance Table

Response: Sepal.Width
             Df  Sum Sq Mean Sq F value    Pr(>F)    
Petal.Width   1  3.7945  3.7945   22.91 4.073e-06 ***
Residuals   148 24.5124  0.1656                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Fsummary(mod)Mean Sq3.7945/0.1656=22.91FFF=tPetal.Width2, por lo que los valores p son los mismos. Esta equivalencia solo se cumple en este caso simple.

Gavin Simpson
fuente
55
@Gavin (+1) ¡Gran respuesta con buenas ilustraciones!
chl
2
Buen trabajo. Algo que podría aclarar con respecto al cálculo de los valores t: sqrt (diag (vcov (mod))) produce el SE de las estimaciones. Estos son los mismos SE que se muestran en el resumen del modelo. Más fácil y claro solo para decir que t = Estimate / SEestimate. En ese sentido, no es diferente que cualquier otro valor t.
Brett
2
Ft2
2
@Arrendajo; Gracias. Pensé en mencionar esa equivalencia también. ¿No estaba seguro de si era demasiado detalle o no? Voy a anunciar algo sobre esto en un mes.
Gavin Simpson
2
"no usará las ecuaciones matemáticas estándar para calcular" ¿Qué usarán?
SmallChess
0

Ronen Israel y Adrienne Ross (AQR) escribieron un artículo muy bueno sobre este tema: Medición de exposiciones a factores: usos y abusos .

Para resumir (ver: p. 8),

  • R2
  • Cuando el estadístico t es mayor que dos, podemos decir con un 95% de confianza (o un 5% de posibilidades de que nos equivoquemos) que la estimación beta es estadísticamente diferente de cero. En otras palabras, podemos decir que una cartera tiene una exposición significativa a un factor.

El lm()resumen de R calcula el valor p Pr(>|t|). Cuanto más pequeño es el valor p, más significativo es el factor. El valor P = 0.05 es un umbral razonable.

Steve Lihn
fuente
66
Los tipos de incorrecciones en este documento, ejemplificados por "Cuando el estadístico t es mayor que dos, podemos decir (con ... un 5% de posibilidades de que nos equivoquemos) que la estimación beta es estadísticamente diferente de cero" [en p . 11], se analizan en stats.stackexchange.com/questions/311763 y stats.stackexchange.com/questions/26450 .
whuber