Intervalos de confianza y predicción del modelo de regresión lineal.

9

Bien, entonces estoy tratando de entender la regresión lineal. Tengo un conjunto de datos y todo parece estar bien, pero estoy confundido. Este es mi modelo-resumen lineal:

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.2068621  0.0247002   8.375 4.13e-09 ***
temp        0.0031074  0.0004779   6.502 4.79e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874 
F-statistic: 42.28 on 1 and 28 DF,  p-value: 4.789e-07 

entonces, el valor p es realmente bajo, lo que significa que es muy poco probable que obtenga la correlación entre x, y por casualidad. Si lo trazo y luego dibujo la línea de regresión, se ve así: http://s14.directupload.net/images/120923/l83eellv.png (Lo tenía como una imagen, pero yo soy, como nuevo usuario, actualmente no permitido publicarlo) Líneas azules = intervalo de confianza Líneas verdes = intervalo de predicción

Ahora, muchos de los puntos no entran en el intervalo de confianza, ¿por qué sucedería eso? Creo que ninguno de los puntos de datos cae en la línea de regresión b / c, sino que están bastante lejos el uno del otro, pero de lo que no estoy seguro: ¿es esto un problema real? Todavía están alrededor de la línea de regresión y puedes ver totalmente un patrón. ¿Pero es eso suficiente? Estoy tratando de resolverlo, pero sigo haciéndome las mismas preguntas una y otra vez.

Lo que pensé hasta ahora: el intervalo de confianza dice que si calcula los IC una y otra vez, en el 95% de las veces la verdadera media cae en el IC. Entonces: No es un problema que el dp no caiga en él, ya que estos no son los medios realmente. El intervalo de predicción, por otro lado, dice que si calcula PI una y otra vez, en el 95% de las veces el verdadero VALOR cae en el intervalo. Por lo tanto, es bastante importante tener los puntos en él (que sí tengo). Entonces he leído que el PI siempre debe tener un rango más amplio que el CI. ¿Porqué es eso? Esto es lo que he hecho:

conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))

y luego lo tracé:

matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")

Ahora, si calculo CI y PI para datos adicionales, no importa cuán ancho elijo el rango, obtengo exactamente las mismas líneas que arriba. No puedo entender. Qué significa eso? Esto sería entonces:

conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))

para la nueva x elegí diferentes secuencias. Si la secuencia tiene un número diferente de observaciones que las variables en mi regresión, recibo una advertencia. ¿Por qué sería eso?

lisa
fuente

Respuestas:

3

Entiendo algunas de sus preguntas, pero otras no están claras. Permítame responder y exponer algunos hechos y tal vez eso aclarará toda su confusión.

El ajuste que tienes es notablemente bueno. Los intervalos de confianza deben ser muy ajustados. Hay dos tipos de regiones de confianza que se pueden considerar, la región bsimultanoues que está destinada a cubrir toda la función de regresión verdadera con el nivel de confianza dado.

Los otros que es lo que está viendo son los intervalos de confianza para los puntos de regresión ajustados. Solo están destinados a cubrir el valor ajustado de y en los valores dados de la covariable (s). No están destinados a cubrir los valores de y en otros valores de las covariables. De hecho, si los intervalos son muy ajustados como deberían ser en su caso, no cubrirán muchos de los puntos de datos a medida que se aleje de los valores fijos de las covariables. Para ese tipo de cobertura, necesita obtener las curvas de confianza simultáneas (curvas de límite superior e inferior).

Ahora es cierto que si predice ay en un valor dado de una covariable y desea el mismo nivel de confianza para el intervalo de predicción que utilizó para el intervalo de confianza para y en el valor dado de la covariable, el intervalo será más amplio. La razón es que el modelo le dice que habrá variabilidad agregada porque una nueva y tendrá su propio error independiente que debe tenerse en cuenta en el intervalo. Ese componente de error no entra en las estimaciones basadas en los datos utilizados en el ajuste.

Michael R. Chernick
fuente
Lo siento, todavía no entiendo del todo. Explicó 2 tipos de intervalo de confianza, pero ¿a qué se refiere cuando dice "los que estoy viendo"? b / c He trazado tanto la predicción como el intervalo de confianza, y tengo problemas para entender la diferencia. Además, agregué algunos comandos R a mi publicación anterior para aclarar lo que he estado haciendo
lisa
Las curvas no aclaran si las bandas de confianza se obtienen o no mediante la construcción de curvas de confianza simultáneas o simplemente hacen una conexión suave de los intervalos de confianza individuales. Si fueran simultáneos, no vería tantos puntos ajustados fuera de la curva. Pero como señalé, podría suceder con los intervalos individuales. Todavía no he mirado la edición que incluye el código R.
Michael R. Chernick
No sé R lo suficientemente bien como para responder las preguntas específicas de R. Lo que no sé si un experto en R puede decirle es si las curvas de confianza y las curvas de predicción conectan o no los intervalos de confianza individuales o generan las curvas simultáneas. ¿Tu código también hace lo que pretendes que haga?
Michael R. Chernick