Bien, entonces estoy tratando de entender la regresión lineal. Tengo un conjunto de datos y todo parece estar bien, pero estoy confundido. Este es mi modelo-resumen lineal:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2068621 0.0247002 8.375 4.13e-09 ***
temp 0.0031074 0.0004779 6.502 4.79e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874
F-statistic: 42.28 on 1 and 28 DF, p-value: 4.789e-07
entonces, el valor p es realmente bajo, lo que significa que es muy poco probable que obtenga la correlación entre x, y por casualidad. Si lo trazo y luego dibujo la línea de regresión, se ve así: http://s14.directupload.net/images/120923/l83eellv.png (Lo tenía como una imagen, pero yo soy, como nuevo usuario, actualmente no permitido publicarlo) Líneas azules = intervalo de confianza Líneas verdes = intervalo de predicción
Ahora, muchos de los puntos no entran en el intervalo de confianza, ¿por qué sucedería eso? Creo que ninguno de los puntos de datos cae en la línea de regresión b / c, sino que están bastante lejos el uno del otro, pero de lo que no estoy seguro: ¿es esto un problema real? Todavía están alrededor de la línea de regresión y puedes ver totalmente un patrón. ¿Pero es eso suficiente? Estoy tratando de resolverlo, pero sigo haciéndome las mismas preguntas una y otra vez.
Lo que pensé hasta ahora: el intervalo de confianza dice que si calcula los IC una y otra vez, en el 95% de las veces la verdadera media cae en el IC. Entonces: No es un problema que el dp no caiga en él, ya que estos no son los medios realmente. El intervalo de predicción, por otro lado, dice que si calcula PI una y otra vez, en el 95% de las veces el verdadero VALOR cae en el intervalo. Por lo tanto, es bastante importante tener los puntos en él (que sí tengo). Entonces he leído que el PI siempre debe tener un rango más amplio que el CI. ¿Porqué es eso? Esto es lo que he hecho:
conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))
y luego lo tracé:
matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")
Ahora, si calculo CI y PI para datos adicionales, no importa cuán ancho elijo el rango, obtengo exactamente las mismas líneas que arriba. No puedo entender. Qué significa eso? Esto sería entonces:
conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))
para la nueva x elegí diferentes secuencias. Si la secuencia tiene un número diferente de observaciones que las variables en mi regresión, recibo una advertencia. ¿Por qué sería eso?
fuente