Regresión lineal, ¿qué nos dice el estadístico F, R cuadrado y error estándar residual?

14

Estoy realmente confundido acerca de la diferencia de significado con respecto al contexto de regresión lineal de los siguientes términos:

  • Estadística F
  • R-cuadrado
  • Error estándar residual

Encontré este sitio web que me dio una gran comprensión de los diferentes términos involucrados en la regresión lineal, sin embargo, los términos mencionados anteriormente se parecen bastante (por lo que entiendo). Citaré lo que leí y lo que me confundió:

El error estándar residual es la medida de la calidad de un ajuste de regresión lineal ....... El error estándar residual es la cantidad promedio que la respuesta (dist) se desviará de la línea de regresión verdadera.

1. ¿ Esta es realmente la distancia promedio de los valores observados desde la línea lm?

El estadístico R cuadrado proporciona una medida de qué tan bien el modelo se ajusta a los datos reales.

2. Ahora me estoy confundiendo porque si RSE nos dice hasta qué punto nuestros puntos observados se desvían de la línea de regresión, un RSE bajo en realidad nos dice "su modelo se ajusta bien en función de los puntos de datos observados" -> así qué bueno nuestro los modelos se ajustan, entonces, ¿cuál es la diferencia entre R cuadrado y RSE?

La estadística F es un buen indicador de si existe una relación entre nuestro predictor y las variables de respuesta.

3. ¿Es cierto que podemos tener un valor F que indica una relación fuerte que NO ES LINEAL para que nuestro RSE sea alto y nuestra R al cuadrado sea baja

KingBoomie
fuente
Q 3 Fvalue no indica una relación no lineal. Es una relación que indica si existe una relación sustantiva (constante) entre las dos variables: dependiente e independiente.
Subhash C. Davar
No nos dice la naturaleza de la relación: no lineal o lineal.
Subhash C. Davar

Respuestas:

12

La mejor manera de entender estos términos es hacer un cálculo de regresión a mano. Escribí dos respuestas estrechamente relacionadas ( aquí y aquí ), sin embargo, puede que no lo ayuden completamente a comprender su caso particular. Pero sigue leyendo a pesar de todo. Quizás también te ayuden a conceptualizar mejor estos términos.

En una regresión (o ANOVA), creamos un modelo basado en un conjunto de datos de muestra que nos permite predecir los resultados de una población de interés. Para ello, los siguientes tres componentes se calculan en un simple regresión lineal a partir del cual se pueden calcular los otros componentes, por ejemplo, los cuadrados medios, el valor F, el R2 (también el ajustado R2 ), y el error estándar residual ( RSmi ):

  1. sumas totales de cuadrados ( SStotunl )
  2. sumas residuales de cuadrados ( SSrmisyoretuunl )
  3. sumas modelo de cuadrados ( SSmetrooremil )

Cada uno de ellos está evaluando qué tan bien el modelo describe los datos y son la suma de las distancias al cuadrado desde los puntos de datos hasta el modelo ajustado (ilustrado como líneas rojas en la gráfica a continuación).

El SStotunl evalúa qué tan bien se ajusta la media a los datos. ¿Por qué la media? Debido a que la media es el modelo más simple que podemos ajustar y, por lo tanto, sirve como el modelo con el que se compara la línea de regresión de mínimos cuadrados. Este gráfico que usa el carsconjunto de datos ilustra que:

ingrese la descripción de la imagen aquí

SSresidual

ingrese la descripción de la imagen aquí

SSmodelSStotalSSresidual

ingrese la descripción de la imagen aquí

Para responder a sus preguntas, primero calculemos los términos que desea comprender comenzando con el modelo y la salida como referencia:

# The model and output as reference
m1 <- lm(dist ~ speed, data = cars)
summary(m1)
summary.aov(m1) # To get the sums of squares and mean squares

Las sumas de cuadrados son las distancias al cuadrado de los puntos de datos individuales al modelo:

# Calculate sums of squares (total, residual and model)
y <- cars$dist
ybar <- mean(y)
ss.total <- sum((y-ybar)^2)
ss.total
ss.residual <- sum((y-m1$fitted)^2)
ss.residual
ss.model <- ss.total-ss.residual
ss.model

Los cuadrados medios son las sumas de cuadrados promediados por los grados de libertad:

# Calculate degrees of freedom (total, residual and model)
n <- length(cars$speed)
k <- length(m1$coef) # k = model parameter: b0, b1
df.total <- n-1
df.residual <- n-k
df.model <- k-1

# Calculate mean squares (note that these are just variances)
ms.residual <- ss.residual/df.residual
ms.residual
ms.model<- ss.model/df.model
ms.model

Mis respuestas a tus preguntas:

Q1:

  1. ¿Esta es realmente la distancia promedio de los valores observados desde la línea lm?

RSEMSresidual

# Calculate residual standard error
res.se <- sqrt(ms.residual)
res.se  

SSresidualMSresidual SSresidualRSmirepresenta la distancia promedio de los datos observados desde el modelo. Intuitivamente, esto también tiene mucho sentido porque si la distancia es menor, el ajuste de su modelo también es mejor.

Q2:

  1. Ahora me estoy confundiendo porque si RSE nos dice qué tan lejos se desvían nuestros puntos observados de la línea de regresión, un RSE bajo en realidad nos dice "su modelo se ajusta bien en función de los puntos de datos observados" -> por lo tanto, qué tan bien se ajustan nuestros modelos Entonces, ¿cuál es la diferencia entre R cuadrado y RSE?

R2SSmetrooremilSStotunl

# R squared
r.sq <- ss.model/ss.total
r.sq

R2SStotunlSSmetrooremil

RSmiR2RSmi

R2

Q3:

  1. ¿Es cierto que podemos tener un valor F que indica una relación fuerte que NO ES LINEAL para que nuestro RSE sea alto y nuestra R al cuadrado sea baja

FMETROSmetrooremilMETROSrmisyoretuunl

# Calculate F-value
F <- ms.model/ms.residual
F
# Calculate P-value
p.F <- 1-pf(F, df.model, df.residual)
p.F 

F

Su tercera pregunta es un poco difícil de entender, pero estoy de acuerdo con la cita que me proporcionó.

Stefan
fuente
3

(2) Lo estás entendiendo correctamente, solo estás teniendo dificultades con el concepto.

R2

R2

Chris
fuente
0

Solo para complementar lo que Chris respondió anteriormente:

El estadístico F es la división del cuadrado medio del modelo y el cuadrado medio residual. Software como Stata, después de ajustar un modelo de regresión, también proporciona el valor p asociado con la estadística F. Esto le permite probar la hipótesis nula de que los coeficientes de su modelo son cero. Se podría considerar como el "significado estadístico del modelo en su conjunto".

YSC
fuente