Cómo obtener el valor del error cuadrático medio en una regresión lineal en R

20

Deje que un modelo de regresión lineal obtenido por la función R lm quisiera saber si es posible obtenerlo mediante el comando Error al cuadrado medio.

Tuve la SIGUIENTE salida de un ejemplo

> lm <- lm(MuscleMAss~Age,data)
> sm<-summary(lm)
> sm

Call:
lm(formula = MuscleMAss ~ Age, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-16.1368  -6.1968  -0.5969   6.7607  23.4731 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 156.3466     5.5123   28.36   <2e-16 ***
Age          -1.1900     0.0902  -13.19   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 8.173 on 58 degrees of freedom
Multiple R-squared:  0.7501,    Adjusted R-squared:  0.7458 
F-statistic: 174.1 on 1 and 58 DF,  p-value: < 2.2e-16

Múltiple R-cuadrado es el error de suma cuadrada? si la respuesta es no, podría explicar el significado de Múltiple R cuadrado y Múltiple R cuadrado

Cyberguille
fuente

Respuestas:

25

El R cuadrado múltiple que informa R es el coeficiente de determinación , que viene dado por la fórmula

R2=1-SSresSSnene.

La suma de los errores al cuadrado está dada (gracias a una respuesta previa ) por sum(sm$residuals^2).

El error cuadrático medio viene dado por mean(sm$residuals^2). Podría escribir una función para calcular esto, por ejemplo:

mse <- function(sm) 
    mean(sm$residuals^2)
fbt
fuente
55
+1. Otra solución, basada solo en lo que es visible en la salida , es sm$sigma^2 * sm$fstatistic[3]/(1+sum(sm$fstatistic[2:3])). Es decir, desde la fila antepenúltima se leen los y df y en la fila final se cuenta el número de parámetros ( ), dando . 58 1 + 1 8.173 2 × 58 / ( 1 + 1 + 58 ) = 64.578.173581+18.1732×58/ /(1+1+58)=64,57
whuber
66
Antepenultimate es una gran palabra.
fbt
1
Como de costumbre, una forma mucho más ordenada es escribirmse <- function(sm) mean(sm$residuals^2)
Marius Hofert
44
> ¿No es que el error cuadrático medio está dado por los residuos ^ 2 / error df de la tabla ANOVA en lugar de la media (residuos ^ 2). El último es el cuadrado de error de predicción medio. No estoy seguro si me falta algo de comprensión. Lo siento, no tengo suficientes puntos de reputación para publicar un comentario.
SrikanthRaja
1
Pero estoy de acuerdo con lo que dijo user45409. Según lo que aprendí, MSE = residuales ^ 2 / error df.
vtshen