Si la mejor aproximación lineal (usando mínimos cuadrados) de mis puntos de datos es la línea , ¿cómo puedo calcular el error de aproximación? Si desviación estándar de las diferencias entre observaciones y predicciones , ¿puedo decir luego que un valor real (pero no observado) pertenece al intervalo ( ) con probabilidad ~ 68%, suponiendo una distribución normal?e i = r e a l ( x i ) - ( m x i + b ) y r = r e a l ( x 0 ) [ y p - σ , y p + σ ] y p = m x 0 + b
Para aclarar:
Hice observaciones con respecto a una función mediante la evaluación de algunos puntos . Ajuste estas observaciones a una línea . Para que no observé, me gustaría saber qué tan grande puede ser . Usando el método anterior, ¿es correcto decir que con prob. ~ 68%?x i l ( x ) = m x + b x 0 f ( x 0 ) - l ( x 0 ) f ( x 0 ) ∈ [ l ( x 0 ) - σ , l ( x 0 ) + σ ]
Respuestas:
@whuber te ha señalado tres buenas respuestas, pero quizás aún puedo escribir algo de valor. Su pregunta explícita, según tengo entendido, es:
Dado mi modelo ajustado,y^yo= m^Xyo+ b^ N(0, σ 2 e )ynewxnew( y -σe, y +σe) (observe que agregué 'sombreros') , y suponiendo que mis residuos se distribuyen normalmente, , ¿puedo predecir que una respuesta aún no observada, , con un valor predictivo conocido, , se encontrará dentro del intervalo , con una probabilidad del 68%?norte( 0 , σ^2mi) yn e w Xn e w ( y^- σmi, y^+ σmi)
Intuitivamente, la respuesta parece ser 'sí', pero la respuesta verdadera es quizás . Este será el caso cuando los parámetros (es decir, & ) sean conocidos y sin error. Como estimó estos parámetros, debemos tener en cuenta su incertidumbre. σm , b , σ
Primero pensemos en la desviación estándar de sus residuos. Debido a que esto se estima a partir de sus datos, puede haber algún error en la estimación. Como resultado, la distribución que debe usar para formar su intervalo de predicción debe ser , no la normal. Sin embargo, dado que la converge rápidamente a la normalidad, es menos probable que esto sea un problema en la práctica. tterror df t
Entonces, ¿podemos usar , en lugar de , y seguir nuestro camino alegre? Lamentablemente no. El problema mayor es que existe incertidumbre acerca de su estimación de la media condicional de la respuesta en esa ubicación debido a la incertidumbre en sus estimaciones & . Por lo tanto, la desviación estándar de sus predicciones necesita incorporar más que solo . Debido a que las variaciones se suman , la variación estimada de las predicciones será: Observe que la " y nuevo±z(1-α/2)s m b serrors 2 predicciones (nuevo) =s 2 error +Var( m xnuevo+ b )xs2xsy^nuevo± t( 1 - α / 2 , error de df ) s y^nuevo± z( 1 - α / 2 )s metro^ si^ serror
Habiendo calculado el valor correcto de esta manera, podemos usarlo con la distribución adecuada como se indicó anteriormente.t
fuente