¿Cómo calcular la incertidumbre de la pendiente de regresión lineal en función de la incertidumbre de los datos (posiblemente en Excel / Mathematica)?
Ejemplo: tengamos puntos de datos (0,0), (1,2), (2,4), (3,6), (4,8), ... (8, 16), pero cada valor y tiene una incertidumbre de 4. La mayoría de las funciones que encontré calcularían la incertidumbre como 0, ya que los puntos coinciden perfectamente con la función y = 2x. Pero, como se muestra en la imagen, y = x / 2 también coincide con los puntos. Es un ejemplo exagerado, pero espero que muestre lo que necesito.
EDITAR: Si trato de explicar un poco más, aunque cada punto en el ejemplo tiene un cierto valor de y, pretendemos que no sabemos si es cierto. Por ejemplo, el primer punto (0,0) podría ser (0,6) o (0, -6) o algo intermedio. Estoy preguntando si hay algún algoritmo en alguno de los problemas populares que tenga esto en cuenta. En el ejemplo, los puntos (0,6), (1,6.5), (2,7), (3,7.5), (4,8), ... (8, 10) todavía caen en el rango de incertidumbre, entonces podrían ser los puntos correctos y la línea que conecta esos puntos tiene una ecuación: y = x / 2 + 6, mientras que la ecuación que obtenemos al no factorizar las incertidumbres tiene la ecuación: y = 2x + 0. Entonces la incertidumbre de k es 1,5 y de n es 6.
TL; DR: En la imagen, hay una línea y = 2x que se calcula utilizando el ajuste de mínimos cuadrados y se ajusta perfectamente a los datos. Estoy tratando de encontrar cuánto pueden cambiar k y n en y = kx + n, pero aún así ajustar los datos si conocemos incertidumbre en los valores de y. En mi ejemplo, la incertidumbre de k es 1.5 y en n es 6. En la imagen hay la "mejor" línea de ajuste y una línea que apenas se ajusta a los puntos.
fuente
Respuestas:
Respondiendo a "Estoy tratando de encontrar cuánto pueden cambiar y en , pero aún así se ajustan a los datos si conocemos incertidumbre en los valores de ".k n y=kx+n y
Si la relación verdadera es lineal y los errores en son variables aleatorias normales independientes con medias cero y desviaciones estándar conocidas, entonces la región de confianza de % para es la elipse para la cual , donde es la desviación estándar del error en , es el número de pares , y es el frágil superior de la distribución de chi-cuadrado con grados de libertad.y 100(1−α) (k,n) ∑(kxi+n−yi)2/σ2i<χ2d,α σi yi d (x,y) χ2d,α α d
EDITAR: tomar el error estándar de cada como 3, es decir, tomar las barras de error en el gráfico para representar intervalos de confianza aproximados del 95% para cada separado, la ecuación para el límite de la región de confianza del 95% para es .yi yi (k,n) 204(k−2)2+72n(k−2)+9n2=152.271
fuente
Hice un muestreo directo ingenuo con este código simple en Python:
y obtuve esto:
Por supuesto, puede extraer los
P
datos que desee o cambiar las distribuciones de incertidumbre.fuente
Estaba en la misma cacería antes y creo que este puede ser un lugar útil para comenzar. La función macro de Excel proporciona términos de ajuste lineal y sus incertidumbres basadas en puntos tabulares e incertidumbre para cada punto en ambas ordenadas. Tal vez busque el documento en el que se basa para decidir si desea implementarlo en un entorno diferente, modificarlo, etc. (Se han realizado algunos trabajos preliminares para Mathematica). Parece tener una buena documentación de referencia en la superficie pero refugio. No abrí la macro para ver qué tan bien anotada está.
fuente