R - Confundido en terminología residual

34
  • Error cuadrático medio
  • suma residual de cuadrados
  • error estándar residual
  • error medio cuadrado
  • error de prueba

Pensé que solía entender estos términos, pero cuanto más hago problemas estadísticos, más me confundo donde me imagino. Me gustaría un poco de seguridad y un ejemplo concreto

Puedo encontrar las ecuaciones fácilmente en línea, pero estoy teniendo problemas para obtener una explicación de 'explicar como si fuera 5' de estos términos para poder cristalizar en mi cabeza las diferencias y cómo una lleva a la otra.

Si alguien puede tomar este código a continuación y señalar cómo calcularía cada uno de estos términos, lo agradecería. El código R sería genial ...

Usando este ejemplo a continuación:

summary(lm(mpg~hp, data=mtcars))

Muéstrame en código R cómo encontrar:

rmse = ____
rss = ____
residual_standard_error = ______  # i know its there but need understanding
mean_squared_error = _______
test_error = ________

Puntos de bonificación por explicar como si tuviera 5 las diferencias / similitudes entre estos. ejemplo:

rmse = squareroot(mss)
usuario3788557
fuente
2
¿Podría dar el contexto en el que escuchó el término " error de prueba "? Debido a que no es algo que se llama 'error de la prueba', pero no estoy muy seguro de que es lo que estás buscando ... (que surge en el contexto de tener un equipo de prueba y un conjunto de entrenamiento --does nada de eso suena familiar? )
Steve S
Sí, entiendo que es el modelo generado en el conjunto de entrenamiento aplicado al conjunto de prueba. El error de prueba es modelado y's - prueba y's o (modelado y's - prueba y's) ^ 2 o (modelado y's - prueba y's) ^ 2 /// DF (o N?) O ((modelado y's - prueba y's) ^ 2 / N) ^. 5?
user3788557

Respuestas:

60

Según lo solicitado, ilustro usando una regresión simple usando los mtcarsdatos:

fit <- lm(mpg~hp, data=mtcars)
summary(fit)

Call:
lm(formula = mpg ~ hp, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.7121 -2.1122 -0.8854  1.5819  8.2360 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 30.09886    1.63392  18.421  < 2e-16 ***
hp          -0.06823    0.01012  -6.742 1.79e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Residual standard error: 3.863 on 30 degrees of freedom
Multiple R-squared:  0.6024,    Adjusted R-squared:  0.5892 
F-statistic: 45.46 on 1 and 30 DF,  p-value: 1.788e-07

El error cuadrático medio (MSE) es la media del cuadrado de los residuos:

# Mean squared error
mse <- mean(residuals(fit)^2)
mse
[1] 13.98982

El error cuadrático medio (RMSE) es la raíz cuadrada de MSE:

# Root mean squared error
rmse <- sqrt(mse)
rmse
[1] 3.740297

La suma residual de cuadrados (RSS) es la suma de los residuos cuadrados:

# Residual sum of squares
rss <- sum(residuals(fit)^2)
rss
[1] 447.6743

El error estándar residual (RSE) es la raíz cuadrada de (RSS / grados de libertad):

# Residual standard error
rse <- sqrt( sum(residuals(fit)^2) / fit$df.residual ) 
rse
[1] 3.862962

El mismo cálculo, simplificado porque hemos calculado previamente rss:

sqrt(rss / fit$df.residual)
[1] 3.862962

El término error de prueba en el contexto de regresión (y otras técnicas de análisis predictivo) generalmente se refiere al cálculo de una estadística de prueba en los datos de la prueba, distinta de sus datos de entrenamiento.

En otras palabras, estima un modelo utilizando una parte de sus datos (a menudo una muestra del 80%) y luego calculando el error utilizando la muestra retenida. Nuevamente, ilustro usando mtcars, esta vez con una muestra del 80%

set.seed(42)
train <- sample.int(nrow(mtcars), 26)
train
 [1] 30 32  9 25 18 15 20  4 16 17 11 24 19  5 31 21 23  2  7  8 22 27 10 28  1 29

Estime el modelo, luego prediga con los datos de retención:

fit <- lm(mpg~hp, data=mtcars[train, ])
pred <- predict(fit, newdata=mtcars[-train, ])
pred
 Datsun 710     Valiant  Merc 450SE  Merc 450SL Merc 450SLC   Fiat X1-9 
   24.08103    23.26331    18.15257    18.15257    18.15257    25.92090 

Combine los datos originales y la predicción en un marco de datos.

test <- data.frame(actual=mtcars$mpg[-train], pred)
    test$error <- with(test, pred-actual)
test
            actual     pred      error
Datsun 710    22.8 24.08103  1.2810309
Valiant       18.1 23.26331  5.1633124
Merc 450SE    16.4 18.15257  1.7525717
Merc 450SL    17.3 18.15257  0.8525717
Merc 450SLC   15.2 18.15257  2.9525717
Fiat X1-9     27.3 25.92090 -1.3791024

Ahora calcule sus estadísticas de prueba de la manera normal. Ilustramos MSE y RMSE:

test.mse <- with(test, mean(error^2))
test.mse
[1] 7.119804

test.rmse <- sqrt(test.mse)
test.rmse
[1] 2.668296

Tenga en cuenta que esta respuesta ignora la ponderación de las observaciones.

Andrie
fuente
Gracias por esta respuesta, realmente me ayudó a entender. Al investigar, la lección de Datacamp sobre ajuste de modelos describe una fórmula diferente a la suya para RMSE. Encontré esta página después de una búsqueda en Google. La fórmula que proporcionó para RMSE tiene un sentido intuitivo y es fácil de entender. Su cálculo para RMSE involucra los grados de libertad en el denominador. Además, si leo su publicación correctamente, dicen que R llama a RMSE el error estándar residual, pero según su respuesta, estas son métricas de evaluación distintas. Pensamientos?
Doug Fir
22

El póster original pedía una respuesta de "explicar como si tuviera 5". Digamos que tu maestro de escuela te invita a ti y a tus compañeros de escuela a ayudar a adivinar el ancho de la mesa del maestro. Cada uno de los 20 estudiantes en clase puede elegir un dispositivo (regla, escala, cinta o criterio) y se le permite medir la mesa 10 veces. Se les pide a todos que usen diferentes ubicaciones de inicio en el dispositivo para evitar leer el mismo número una y otra vez; la lectura inicial debe sustraerse de la lectura final para finalmente obtener una medida de ancho (recientemente aprendió a hacer ese tipo de matemática).

Hubo un total de 200 medidas de ancho tomadas por la clase (20 estudiantes, 10 medidas cada uno). Las observaciones se entregan a la maestra que hará los números. Restar las observaciones de cada estudiante de un valor de referencia dará como resultado otros 200 números, llamados desviaciones . El maestro promedia la muestra de cada estudiante por separado, obteniendo 20 medias . Restar las observaciones de cada estudiante de su media individual dará como resultado 200 desviaciones de la media, llamadas residuales . Si se calculara el residuo medio para cada muestra, notarías que siempre es cero. Si, en cambio, elevamos al cuadrado cada residuo, promediamos y finalmente deshacemos el cuadrado, obtenemos la desviación estándar . (Por cierto, llamamos a ese último bit de cálculo la raíz cuadrada (piense en encontrar la base o el lado de un cuadrado dado), por lo que toda la operación a menudo se llama raíz-media-cuadrada, para abreviar; la desviación estándar de las observaciones es igual a la media cuadrática de los residuos).

Pero el maestro ya conocía el ancho real de la mesa, en función de cómo fue diseñado, construido y verificado en la fábrica. Entonces, otros 200 números, llamados errores , pueden calcularse como la desviación de las observaciones con respecto al ancho verdadero. Se puede calcular un error medio para cada muestra de estudiante. Asimismo, 20 desviación estándar del error , o error estándar se pueden calcular , para las observaciones. Más 20 errores de raíz cuadrática medialos valores también se pueden calcular. Los tres conjuntos de 20 valores están relacionados como sqrt (me ^ 2 + se ^ 2) = rmse, en orden de aparición. Basado en rmse, el maestro puede juzgar qué estudiante proporcionó la mejor estimación para el ancho de la mesa. Además, al observar por separado los 20 errores medios y los 20 valores de error estándar, el maestro puede instruir a cada alumno sobre cómo mejorar sus lecturas.

Como verificación, el maestro restó cada error de su error medio respectivo, lo que resultó en otros 200 números, que llamaremos errores residuales (eso no se hace a menudo). Como anteriormente, el error residual medio es cero, por lo que la desviación estándar de los errores residuales o el error residual estándar es la misma que el error estándar , y de hecho, también lo es el error residual de la raíz cuadrática media . (Ver más abajo para más detalles).

Ahora aquí hay algo de interés para el maestro. Podemos comparar la media de cada alumno con el resto de la clase (20 medias en total). Tal como lo definimos antes de estos valores de puntos:

  • m: media (de las observaciones),
  • s: desviación estándar (de las observaciones)
  • yo: error medio (de las observaciones)
  • se: error estándar (de las observaciones)
  • rmse: error cuadrático medio (de las observaciones)

También podemos definir ahora:

  • mm: media de las medias
  • sm: desviación estándar de la media
  • mem: error medio de la media
  • sem: error estándar de la media
  • rmsem: error cuadrático medio de la media

Solo si se dice que la clase de estudiantes es imparcial, es decir, si mem = 0, entonces sem = sm = rmsem; es decir, error estándar de la media, desviación estándar de la media y error cuadrático medio, la media puede ser la misma siempre que el error medio de las medias sea cero.

Si hubiéramos tomado solo una muestra, es decir, si hubiera solo un estudiante en clase, la desviación estándar de las observaciones podría usarse para estimar la desviación estándar de la media (sm), como sm ^ 2 ~ s ^ 2 / n, donde n = 10 es el tamaño de la muestra (el número de lecturas por alumno). Los dos coincidirán mejor a medida que crezca el tamaño de la muestra (n = 10,11, ...; más lecturas por alumno) y crezca el número de muestras (n '= 20,21, ...; más alumnos en clase). (Una advertencia: un "error estándar" no calificado se refiere más a menudo al error estándar de la media, no al error estándar de las observaciones).

Aquí hay algunos detalles de los cálculos involucrados. El verdadero valor se denota t.

Operaciones de punto a punto:

  • significa: MEDIO (X)
  • raíz media cuadrada: RMS (X)
  • desviación estándar: SD (X) = RMS (X-media (x))

Conjuntos intramuestra:

  • observaciones (dadas), X = {x_i}, i = 1, 2, ..., n = 10.
  • desviaciones: diferencia de un conjunto con respecto a un punto fijo.
  • residuales: desviación de las observaciones de su media, R = Xm.
  • errores: desviación de observaciones del valor verdadero, E = Xt.
  • errores residuales: desviación de errores de su media, RE = E-MEAN (E)

PUNTOS INTRA-MUESTRA (ver tabla 1):

  • m: media (de las observaciones),
  • s: desviación estándar (de las observaciones)
  • yo: error medio (de las observaciones)
  • se: error estándar de las observaciones
  • rmse: error cuadrático medio (de las observaciones)

tabla 1

Conjuntos entre muestras (ensamblaje):

  • significa, M = {m_j}, j = 1, 2, ..., n '= 20.
  • residuales de la media: desviación de las medias de su media, RM = M-mm.
  • errores de la media: desviación de las medias de la "verdad", EM = Mt.
  • errores residuales de la media: desviación de los errores de la media de su media, REM = EM-MEAN (EM)

PUNTOS INTER-MUESTRA (ENSEMBLE) (ver tabla 2):

  • mm: media de las medias
  • sm: desviación estándar de la media
  • mem: error medio de la media
  • sem: error estándar (de la media)
  • rmsem: error cuadrático medio de la media

Tabla 2

Felipe G. Nievinski
fuente
0

También siento que todos los términos son muy confusos. Creo firmemente que es necesario explicar por qué tenemos tantas métricas.

Aquí está mi nota sobre SSE y RMSE:

Primera métrica: Suma de errores al cuadrado (SSE). Otros nombres, Residual Sum of Squares (RSS), Sum of Squared Residuals (SSR).

Si estamos en la comunidad de optimización, SSE es ampliamente utilizado. Es porque es el objetivo de la optimización, donde la optimización es

minimizarβ Xβ-y2

mi=Xβ-ymi2=miTmi

Segunda métrica: error cuadrático medio (RMSE) . Otros nombres, desviación de cuadrados medios de raíz.

RMSE es

1norte(Xβ-y)=1nortemiTmi

norte

y

Haitao Du
fuente