Estoy realmente confundido acerca de la diferencia de significado con respecto al contexto de regresión lineal de los siguientes términos:
- Estadística F
- R-cuadrado
- Error estándar residual
Encontré este sitio web que me dio una gran comprensión de los diferentes términos involucrados en la regresión lineal, sin embargo, los términos mencionados anteriormente se parecen bastante (por lo que entiendo). Citaré lo que leí y lo que me confundió:
El error estándar residual es la medida de la calidad de un ajuste de regresión lineal ....... El error estándar residual es la cantidad promedio que la respuesta (dist) se desviará de la línea de regresión verdadera.
1. ¿ Esta es realmente la distancia promedio de los valores observados desde la línea lm?
El estadístico R cuadrado proporciona una medida de qué tan bien el modelo se ajusta a los datos reales.
2. Ahora me estoy confundiendo porque si RSE nos dice hasta qué punto nuestros puntos observados se desvían de la línea de regresión, un RSE bajo en realidad nos dice "su modelo se ajusta bien en función de los puntos de datos observados" -> así qué bueno nuestro los modelos se ajustan, entonces, ¿cuál es la diferencia entre R cuadrado y RSE?
La estadística F es un buen indicador de si existe una relación entre nuestro predictor y las variables de respuesta.
3. ¿Es cierto que podemos tener un valor F que indica una relación fuerte que NO ES LINEAL para que nuestro RSE sea alto y nuestra R al cuadrado sea baja
fuente
Respuestas:
La mejor manera de entender estos términos es hacer un cálculo de regresión a mano. Escribí dos respuestas estrechamente relacionadas ( aquí y aquí ), sin embargo, puede que no lo ayuden completamente a comprender su caso particular. Pero sigue leyendo a pesar de todo. Quizás también te ayuden a conceptualizar mejor estos términos.
En una regresión (o ANOVA), creamos un modelo basado en un conjunto de datos de muestra que nos permite predecir los resultados de una población de interés. Para ello, los siguientes tres componentes se calculan en un simple regresión lineal a partir del cual se pueden calcular los otros componentes, por ejemplo, los cuadrados medios, el valor F, elR2 (también el ajustado R2 ), y el error estándar residual ( R Smi ):
Cada uno de ellos está evaluando qué tan bien el modelo describe los datos y son la suma de las distancias al cuadrado desde los puntos de datos hasta el modelo ajustado (ilustrado como líneas rojas en la gráfica a continuación).
ElSSt o t a l evalúa qué tan bien se ajusta la media a los datos. ¿Por qué la media? Debido a que la media es el modelo más simple que podemos ajustar y, por lo tanto, sirve como el modelo con el que se compara la línea de regresión de mínimos cuadrados. Este gráfico que usa el
cars
conjunto de datos ilustra que:Para responder a sus preguntas, primero calculemos los términos que desea comprender comenzando con el modelo y la salida como referencia:
Las sumas de cuadrados son las distancias al cuadrado de los puntos de datos individuales al modelo:
Los cuadrados medios son las sumas de cuadrados promediados por los grados de libertad:
Mis respuestas a tus preguntas:
Q1:
Q2:
Q3:
Su tercera pregunta es un poco difícil de entender, pero estoy de acuerdo con la cita que me proporcionó.
fuente
(2) Lo estás entendiendo correctamente, solo estás teniendo dificultades con el concepto.
fuente
Solo para complementar lo que Chris respondió anteriormente:
El estadístico F es la división del cuadrado medio del modelo y el cuadrado medio residual. Software como Stata, después de ajustar un modelo de regresión, también proporciona el valor p asociado con la estadística F. Esto le permite probar la hipótesis nula de que los coeficientes de su modelo son cero. Se podría considerar como el "significado estadístico del modelo en su conjunto".
fuente