Intervalo de predicción de regresión lineal

24

Si la mejor aproximación lineal (usando mínimos cuadrados) de mis puntos de datos es la línea , ¿cómo puedo calcular el error de aproximación? Si desviación estándar de las diferencias entre observaciones y predicciones , ¿puedo decir luego que un valor real (pero no observado) pertenece al intervalo ( ) con probabilidad ~ 68%, suponiendo una distribución normal?e i = r e a l ( x i ) - ( m x i + b ) y r = r e a l ( x 0 ) [ y p - σ , y p + σ ] y p = m x 0 + by=mx+bei=real(xi)(mxi+b)yr=real(x0)[ypσ,yp+σ]yp=mx0+b

Para aclarar:

Hice observaciones con respecto a una función mediante la evaluación de algunos puntos . Ajuste estas observaciones a una línea . Para que no observé, me gustaría saber qué tan grande puede ser . Usando el método anterior, ¿es correcto decir que con prob. ~ 68%?x i l ( x ) = m x + b x 0 f ( x 0 ) - l ( x 0 ) f ( x 0 ) [ l ( x 0 ) - σ , l ( x 0 ) + σ ]f(x)xil(x)=mx+bx0f(x0)l(x0)f(x0)[l(x0)σ,l(x0)+σ]

bmx
fuente
1
Creo que estás preguntando acerca de los intervalos de predicción. Sin embargo, tenga en cuenta que utiliza " ", en lugar de " ". ¿Es esto un error tipográfico? Nosotros no predecimos s. y ixiyix
gung - Restablece a Monica
@gung: uso para denotar, por ejemplo, el tiempo, y el valor de alguna variable en ese momento, por lo que significa que hice una observación en el tiempo . Quiero saber qué tan lejos pueden estar las predicciones de la función de ajuste de los valores reales de y. ¿Tiene sentido? La función devuelve el valor "correcto" de en , y mis puntos de datos consisten en . y y = f ( x ) y x r e a l ( x i ) y x i ( x i , r e a l ( x i ) )Xyy=F(X)yXrmiunal(Xyo)yXyo(Xyo,rmiunal(Xyo))
bmx
1
Eso parece perfectamente razonable. Las partes en las que me estoy centrando son, por ejemplo, " ", generalmente pensamos en los errores / residuos en un modelo reg como " " . La desviación estándar de los residuales hace desempeñar un papel en el cálculo de los intervalos de predicción. Es esa " " lo que es raro para mí; Me pregunto si es un error tipográfico o si preguntas algo que no reconozco. e i = y i - ( m x i + b )miyo=rmiunal(Xyo)-(metroXyo+si)miyo=yyo-(metroXyo+si)Xyo
gung - Restablece a Monica
Creo que veo; Extrañé tu edición. Esto sugiere que el sistema es perfectamente determinista y si tuviera acceso a la función subyacente real , siempre podría predecir perfectamente sin error. Esa no es la forma en que normalmente pensamos en los modelos de registro. yyo
gung - Restablece a Monica
44
bmx, me parece que tienes una idea clara de tu pregunta y una buena conciencia de algunos de los problemas. Es posible que le interese revisar tres hilos estrechamente relacionados. stats.stackexchange.com/questions/17773 describe los intervalos de predicción en términos no técnicos; stats.stackexchange.com/questions/26702 ofrece una descripción más matemática; y en stats.stackexchange.com/questions/9131 , Rob Hyndman proporciona la fórmula que busca. Si estos no responden completamente a su pregunta, al menos pueden darle una notación estándar y un vocabulario para aclararlo.
whuber

Respuestas:

30

@whuber te ha señalado tres buenas respuestas, pero quizás aún puedo escribir algo de valor. Su pregunta explícita, según tengo entendido, es:

Dado mi modelo ajustado,y^yo=metro^Xyo+si^ N(0, σ 2 e )ynewxnew( y -σe, y +σe) (observe que agregué 'sombreros') , y suponiendo que mis residuos se distribuyen normalmente, , ¿puedo predecir que una respuesta aún no observada, , con un valor predictivo conocido, , se encontrará dentro del intervalo , con una probabilidad del 68%?norte(0 0,σ^mi2)ynortemiwXnortemiw(y^-σmi,y^+σmi)

Intuitivamente, la respuesta parece ser 'sí', pero la respuesta verdadera es quizás . Este será el caso cuando los parámetros (es decir, & ) sean conocidos y sin error. Como estimó estos parámetros, debemos tener en cuenta su incertidumbre. σmetro,si,σ

Primero pensemos en la desviación estándar de sus residuos. Debido a que esto se estima a partir de sus datos, puede haber algún error en la estimación. Como resultado, la distribución que debe usar para formar su intervalo de predicción debe ser , no la normal. Sin embargo, dado que la converge rápidamente a la normalidad, es menos probable que esto sea un problema en la práctica. tterror dft

Entonces, ¿podemos usar , en lugar de , y seguir nuestro camino alegre? Lamentablemente no. El problema mayor es que existe incertidumbre acerca de su estimación de la media condicional de la respuesta en esa ubicación debido a la incertidumbre en sus estimaciones & . Por lo tanto, la desviación estándar de sus predicciones necesita incorporar más que solo . Debido a que las variaciones se suman , la variación estimada de las predicciones será: Observe que la " y nuevo±z(1-α/2)s m b serrors 2 predicciones (nuevo) =s 2 error +Var( m xnuevo+ b )xs2xsy^nuevo±t(1-α/ /2, error df)sy^nuevo±z(1-α/ /2)smetro^si^serror

spredicciones (nuevo)2=serror2+Var(metro^Xnuevo+si^)
X"está suscrito para representar el valor específico de la nueva observación, y que la" "está correspondientemente suscrita. Es decir, su intervalo de predicción depende de la ubicación de la nueva observación a lo largo del eje . La desviación estándar de su las predicciones se pueden estimar más convenientemente con la siguiente fórmula: Como nota al margen interesante, podemos inferir algunos hechos sobre los intervalos de predicción a partir de esta ecuación. Primero, los intervalos de predicción serán más estrechos cuanto más datos tengamos cuando construimos el modelo de predicción (esto se debe a que hay menos incertidumbre en &s2Xmbx0x
spredicciones (nuevo)=serror2(1+1norte+(Xnuevo-X¯)2(Xyo-X¯)2)
metro^si^) En segundo lugar, las predicciones serán más precisas si se realizan a la media de los valores de que utilizó para desarrollar su modelo, ya que el numerador para el tercer término será . La razón es que, en circunstancias normales, no hay incertidumbre acerca de la pendiente estimada en la media deX0 0X, solo cierta incertidumbre sobre la verdadera posición vertical de la línea de regresión. Por lo tanto, algunas lecciones que se pueden aprender para construir modelos de predicción son: que más datos sean útiles, no para encontrar 'importancia', sino para mejorar la precisión de las predicciones futuras; y que debe centrar sus esfuerzos de recopilación de datos en el intervalo en el que deberá hacer predicciones en el futuro (para minimizar ese numerador), pero difundir las observaciones lo más ampliamente posible desde ese centro (para maximizar ese denominador).

Habiendo calculado el valor correcto de esta manera, podemos usarlo con la distribución adecuada como se indicó anteriormente. t

gung - Restablece a Monica
fuente