- Error cuadrático medio
- suma residual de cuadrados
- error estándar residual
- error medio cuadrado
- error de prueba
Pensé que solía entender estos términos, pero cuanto más hago problemas estadísticos, más me confundo donde me imagino. Me gustaría un poco de seguridad y un ejemplo concreto
Puedo encontrar las ecuaciones fácilmente en línea, pero estoy teniendo problemas para obtener una explicación de 'explicar como si fuera 5' de estos términos para poder cristalizar en mi cabeza las diferencias y cómo una lleva a la otra.
Si alguien puede tomar este código a continuación y señalar cómo calcularía cada uno de estos términos, lo agradecería. El código R sería genial ...
Usando este ejemplo a continuación:
summary(lm(mpg~hp, data=mtcars))
Muéstrame en código R cómo encontrar:
rmse = ____
rss = ____
residual_standard_error = ______ # i know its there but need understanding
mean_squared_error = _______
test_error = ________
Puntos de bonificación por explicar como si tuviera 5 las diferencias / similitudes entre estos. ejemplo:
rmse = squareroot(mss)
r
regression
residuals
usuario3788557
fuente
fuente
Respuestas:
Según lo solicitado, ilustro usando una regresión simple usando los
mtcars
datos:El error cuadrático medio (MSE) es la media del cuadrado de los residuos:
El error cuadrático medio (RMSE) es la raíz cuadrada de MSE:
La suma residual de cuadrados (RSS) es la suma de los residuos cuadrados:
El error estándar residual (RSE) es la raíz cuadrada de (RSS / grados de libertad):
El mismo cálculo, simplificado porque hemos calculado previamente
rss
:El término error de prueba en el contexto de regresión (y otras técnicas de análisis predictivo) generalmente se refiere al cálculo de una estadística de prueba en los datos de la prueba, distinta de sus datos de entrenamiento.
En otras palabras, estima un modelo utilizando una parte de sus datos (a menudo una muestra del 80%) y luego calculando el error utilizando la muestra retenida. Nuevamente, ilustro usando
mtcars
, esta vez con una muestra del 80%Estime el modelo, luego prediga con los datos de retención:
Combine los datos originales y la predicción en un marco de datos.
Ahora calcule sus estadísticas de prueba de la manera normal. Ilustramos MSE y RMSE:
Tenga en cuenta que esta respuesta ignora la ponderación de las observaciones.
fuente
El póster original pedía una respuesta de "explicar como si tuviera 5". Digamos que tu maestro de escuela te invita a ti y a tus compañeros de escuela a ayudar a adivinar el ancho de la mesa del maestro. Cada uno de los 20 estudiantes en clase puede elegir un dispositivo (regla, escala, cinta o criterio) y se le permite medir la mesa 10 veces. Se les pide a todos que usen diferentes ubicaciones de inicio en el dispositivo para evitar leer el mismo número una y otra vez; la lectura inicial debe sustraerse de la lectura final para finalmente obtener una medida de ancho (recientemente aprendió a hacer ese tipo de matemática).
Hubo un total de 200 medidas de ancho tomadas por la clase (20 estudiantes, 10 medidas cada uno). Las observaciones se entregan a la maestra que hará los números. Restar las observaciones de cada estudiante de un valor de referencia dará como resultado otros 200 números, llamados desviaciones . El maestro promedia la muestra de cada estudiante por separado, obteniendo 20 medias . Restar las observaciones de cada estudiante de su media individual dará como resultado 200 desviaciones de la media, llamadas residuales . Si se calculara el residuo medio para cada muestra, notarías que siempre es cero. Si, en cambio, elevamos al cuadrado cada residuo, promediamos y finalmente deshacemos el cuadrado, obtenemos la desviación estándar . (Por cierto, llamamos a ese último bit de cálculo la raíz cuadrada (piense en encontrar la base o el lado de un cuadrado dado), por lo que toda la operación a menudo se llama raíz-media-cuadrada, para abreviar; la desviación estándar de las observaciones es igual a la media cuadrática de los residuos).
Pero el maestro ya conocía el ancho real de la mesa, en función de cómo fue diseñado, construido y verificado en la fábrica. Entonces, otros 200 números, llamados errores , pueden calcularse como la desviación de las observaciones con respecto al ancho verdadero. Se puede calcular un error medio para cada muestra de estudiante. Asimismo, 20 desviación estándar del error , o error estándar se pueden calcular , para las observaciones. Más 20 errores de raíz cuadrática medialos valores también se pueden calcular. Los tres conjuntos de 20 valores están relacionados como sqrt (me ^ 2 + se ^ 2) = rmse, en orden de aparición. Basado en rmse, el maestro puede juzgar qué estudiante proporcionó la mejor estimación para el ancho de la mesa. Además, al observar por separado los 20 errores medios y los 20 valores de error estándar, el maestro puede instruir a cada alumno sobre cómo mejorar sus lecturas.
Como verificación, el maestro restó cada error de su error medio respectivo, lo que resultó en otros 200 números, que llamaremos errores residuales (eso no se hace a menudo). Como anteriormente, el error residual medio es cero, por lo que la desviación estándar de los errores residuales o el error residual estándar es la misma que el error estándar , y de hecho, también lo es el error residual de la raíz cuadrática media . (Ver más abajo para más detalles).
Ahora aquí hay algo de interés para el maestro. Podemos comparar la media de cada alumno con el resto de la clase (20 medias en total). Tal como lo definimos antes de estos valores de puntos:
También podemos definir ahora:
Solo si se dice que la clase de estudiantes es imparcial, es decir, si mem = 0, entonces sem = sm = rmsem; es decir, error estándar de la media, desviación estándar de la media y error cuadrático medio, la media puede ser la misma siempre que el error medio de las medias sea cero.
Si hubiéramos tomado solo una muestra, es decir, si hubiera solo un estudiante en clase, la desviación estándar de las observaciones podría usarse para estimar la desviación estándar de la media (sm), como sm ^ 2 ~ s ^ 2 / n, donde n = 10 es el tamaño de la muestra (el número de lecturas por alumno). Los dos coincidirán mejor a medida que crezca el tamaño de la muestra (n = 10,11, ...; más lecturas por alumno) y crezca el número de muestras (n '= 20,21, ...; más alumnos en clase). (Una advertencia: un "error estándar" no calificado se refiere más a menudo al error estándar de la media, no al error estándar de las observaciones).
Aquí hay algunos detalles de los cálculos involucrados. El verdadero valor se denota t.
Operaciones de punto a punto:
Conjuntos intramuestra:
PUNTOS INTRA-MUESTRA (ver tabla 1):
Conjuntos entre muestras (ensamblaje):
PUNTOS INTER-MUESTRA (ENSEMBLE) (ver tabla 2):
fuente
También siento que todos los términos son muy confusos. Creo firmemente que es necesario explicar por qué tenemos tantas métricas.
Aquí está mi nota sobre SSE y RMSE:
Primera métrica: Suma de errores al cuadrado (SSE). Otros nombres, Residual Sum of Squares (RSS), Sum of Squared Residuals (SSR).
Si estamos en la comunidad de optimización, SSE es ampliamente utilizado. Es porque es el objetivo de la optimización, donde la optimización es
Segunda métrica: error cuadrático medio (RMSE) . Otros nombres, desviación de cuadrados medios de raíz.
RMSE es
fuente