¿Qué significa que una regresión lineal sea estadísticamente significativa pero que tenga un r cuadrado muy bajo?

Respuestas:

27

Significa que puede explicar una pequeña porción de la varianza en los datos. Por ejemplo, puede establecer que un título universitario afecta los salarios, pero al mismo tiempo es solo un factor pequeño. Hay muchos otros factores que afectan su salario, y la contribución del título universitario es muy pequeña, pero detectable.

En términos prácticos, podría significar que, en promedio, el título universitario aumenta el salario en $ 500 por año, mientras que la desviación estándar de los salarios de las personas es de $ 10K. Por lo tanto, muchas personas con educación universitaria tienen salarios más bajos que los que no tienen educación, y el valor de su modelo de predicción es bajo.

Aksakal
fuente
11

Significa que "el error irreducible es alto", es decir, lo mejor que podemos hacer (con el modelo lineal) es limitado. Por ejemplo, el siguiente conjunto de datos:

data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)

Tenga en cuenta que el truco en este conjunto de datos es que, dado un valor , hay demasiados valores y diferentes , por lo que no podemos hacer una buena predicción para satisfacerlos a todos. Al mismo tiempo, hay correlaciones lineales "fuertes" entre x e y . Si ajustamos un modelo lineal, obtendremos coeficientes significativos, pero R al cuadrado bajo.xyxy

fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)

Call:
lm(formula = data[, 2] ~ data[, 1])

Residuals:
     Min       1Q   Median       3Q      Max 
-203.331  -59.647   -1.252   68.103  195.669 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  123.910      8.428   14.70   <2e-16 ***
data[, 1]     80.421      4.858   16.56   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared:  0.2814,    Adjusted R-squared:  0.2804 
F-statistic: 274.1 on 1 and 700 DF,  p-value: < 2.2e-16

ingrese la descripción de la imagen aquí

Haitao Du
fuente
3

¿Qué significa que una regresión lineal sea estadísticamente significativa pero que tenga un r cuadrado muy bajo?

Significa que existe una relación lineal entre la variable independiente y la dependiente, pero que no vale la pena hablar de esta relación.

El significado de la relación, sin embargo, depende mucho de lo que está examinando, pero en general, puede tomarse como que la significación estadística no debe confundirse con la relevancia.

Con un tamaño de muestra lo suficientemente grande, incluso las relaciones más triviales pueden ser estadísticamente significativas.

fausto
fuente
1
En realidad, la regresión lineal significa lineal en los parámetros. Las variables dependientes sin procesar se pueden transformar y aún tiene una regresión lineal. Estoy un poco desconcertado por lo que crees que es la significación estadística. Para mí, significa que las estimaciones de los parámetros son grandes.
Michael R. Chernick
^ significancia se refiere a la probabilidad de que los resultados sean puramente casuales y de que no haya relación entre los predictores y la variable dependiente. Si tiene un tamaño de muestra pequeño y los resultados son significativos, entonces sí, las estimaciones de los parámetros serían grandes. sin embargo, con una muestra ridículamente grande, puede obtener resultados significativos incluso con una estimación de parámetro muy pequeña. Pruébelo
faustus
Lo que dices suena como una descripción general de lo que se trata la inferencia. Pero la significación estadística es un término específico que tiene que ver con exceder un valor o valores críticos donde los valores críticos dependen de un nivel de significancia particular que el analista elige (por ejemplo, 0.05. 0.01, etc.). El tamaño de la muestra es otro factor. En la regresión, está probando varias hipótesis (importancia de los coeficientes de regresión individuales, así como la prueba de que no hay relación. También puede ser complicado haciendo procedimientos por pasos que seleccionan entre varios modelos posibles.)
Michael R. Chernick,
1
La estadística es en parte ciencia y en parte arte, pero se basa en principios matemáticos.
Michael R. Chernick
2
@MichaelChernik ¿Puedes elaborar un poco? Estoy de acuerdo con Fausto (de hecho, di una respuesta similar) y no entiendo tu punto. En la regresión lineal, la significación ((ya sea la significación de los coeficientes de regresión individuales o la regresión completa) se prueba con la hipótesis de no relación (coeficiente exactamente 0). Con suficientes datos puede decir que los coeficientes son distintos de cero, pero terriblemente pequeño. (continúa)
Luca Citi
2

Otra forma de redactar esto es que significa que puede predecir con confianza un cambio a nivel de población pero no a nivel individual. es decir, existe una gran variación en los datos individuales, pero cuando se usa una muestra lo suficientemente grande, se puede ver un efecto subyacente en general. Es una de las razones por las cuales algunos consejos de salud del Gobierno no son útiles para el individuo. En algún momento, los gobiernos sienten la necesidad de actuar porque pueden ver que más de alguna actividad conduce a más muertes en general en la población. Producen consejos o una política que 'salva' estas vidas. Sin embargo, debido a la alta variación en las respuestas individuales, es poco probable que un individuo vea personalmente algún beneficio (o, lo que es peor, debido a condiciones genéticas específicas, su propia salud habría mejorado al obedecer el consejo opuesto, pero esto está oculto en la agregación de la población). Si el individuo obtiene beneficios (por ejemplo, placer) de la actividad 'poco saludable', seguir el consejo puede significar que renuncie a este placer definitivo durante toda su vida, pero en realidad no cambia personalmente si hubieran sufrido o no la enfermedad.

salud
fuente
Muy buen ejemplo!
kjetil b halvorsen
Me pregunto qué es este estudio s'R2
Aksakal