Error sistemático / de medición en una regresión lineal

8

Supongamos que tengo un conjunto de datos en el que la incertidumbre en las mediciones (que provienen de la propagación de errores sistemáticos del aparato de medición) es diferente para cada punto. Si hago una regresión lineal en el conjunto de datos, ¿cómo calculo la incertidumbre en la pendiente? Me gustaría un procedimiento o fórmula explícita.(xi,yi)(Δxi,Δyi)

Iván Mauricio Burbano
fuente
2
¿Tiene alguna idea sobre qué error de medición es mayor?
Dimitriy V. Masterov
1
Por los deltas, ¿quieres decir la diferencia entre mediciones secuenciales? ¿Sus datos son secuenciales? ¿Espera que el error esté correlacionado? ¿Esperas que la correlación decaiga? ¿Tienes algún tipo de replicación independiente? Se necesita más información para proporcionar una respuesta concreta.
user3903581
El término que está buscando es propagación de errores. Tiene errores en el lado de entrada y calcula (más específicamente: estimar) dos parámetros a partir de él. Lamentablemente, el nombre de "regresión lineal" solo describe un modelo (popular), pero no el método por el cual se estiman los parámetros. Para los métodos más utilizados, probablemente pueda buscar la solución (por ejemplo, mínimos cuadrados). Si no, puede calcularlo analíticamente o aproximarlo mediante una evaluación numérica.
querubín

Respuestas:

4

Podemos modelar el experimento como donde denotar valores verdaderos, son errores de medición, son sus componentes "fijos" independientes de la observación (que podría surgir de una calibración incorrecta de los sensores) y varían de una observación a otra. observación y corresponden a muchos factores posibles que tratamos como aleatorios.

Xyo=Xyo+tu~yo
yyo=yyo+v~yo
tu~yo=tu¯+vyo
v~yo=v¯+tuyo
Xyo,yyotu~yo,v~yotu¯,v¯tu,v

La regresión lineal simple es y la estimación OLS de la pendiente es Sin embargo, lo que obtenemos es

yyo=α+βXyo+miyo
β^=Cov(X,y)Vunar(X)
β~=Cov(x,y)Var(x)=Cov(x+u,y+v)Var(x+u)=Cov(x,y)+Cov(x,v)+Cov(y,u)+Cov(u,v)Var(x)+Var(u)+2Cov(X,tu)

Ahora supongamos que no están correlacionadas con y entre sí (una suposición bastante sólida que puede mejorarse si tenemos más inferencias sobre la naturaleza de los errores). Entonces nuestra estimación es Podemos estimar como una variación de muestra de . También necesitamos estimar . Si tenemos un experimento en el que podemos observar varias veces, entonces un enfoque simple es estimar ].v,tuX,y

β~=βσX2σX2+σtu2βσ^X2-σ^tu2σ^X2=βλ^
σ^X2Xyoσtu2Xyoσtu2=mi[σX2El |Xyo

Ahora podemos usar nuestro calculado con, por ejemplo, el método bootstrap, y corregirlo para para que .σ^β~2β^=β~/ /λ^

σ^β^2=σ^β~2λ^2
yshilov
fuente
3

Creo que la respuesta dada por @yshilov es definitivamente increíble al considerar el error de medición en el término de error y significativamente, deduce el resultado

β~=βσX2σX2+σtu2

Para elaborar, esta beta tiene propiedades especiales de que es un estimador sesgado, pero sesgado hacia 0. Específicamente, para regresión lineal,mi(β^1)=β1[σX2+σXδσX2+2σXδ+σδ2]

La prueba es la siguiente: en regresión lineal simple, recordar En el caso de error de medición, tenemos , , y , entonces obtenemos Suponiendo que , , y la varianza del valor predictor verdadero

β^1=yo=1norte(Xyo-X¯)yyoyo=1norte(Xyo-X¯)2
XyoO=XyoUNA=δyoyyoO=yyoUNA+ϵyoyyoUNA=β0 0+β1XyoUNA
yyoO=β0 0+β1(XyoO-δyo)+ϵyo=β0 0+β1XyoO+(ϵyo-β1δyo)
mi(ϵyo)=mi(δyo)=0 0vunar(ϵyo)=σϵ2vunar(δyo)=σδ2=1norteyo=1norte(δyo-δ¯)2σX2=(XyoUNA-XUNA¯)2nortey correlación del verdadero predictor y error , luegoσXδ=Cov(XUNA,δ)=1norteyo=1norte(XyoUNA-XyoUNA¯)(δyo-δ¯)

Cov(XyoO,δ)=mi(XyoOδ)-mi(XyoO)mi(δ)=mi(XyoOδ)=mi[(XyoUNA+δ)δ]=mi(XyoUNAδ)+mi(δ2)
=[mi(XyoUNAδ)-mi(XyoUNA)mi(δ)]+[vunar(δ)+[mi(δ)]2]=Cov(XyoUNA,δ)+σδ2=σXδ+σδ2
Entonces, mediante y la propiedad de bilinealidad en covarianza, la expectativa de es X¯=mi(Xyo)β^1
mi(β^1)=mi[yo=1norte(XyoO-X¯O)yyoOyo=1norte(XyoO-X¯O)2]=mi(yo=1norteXyoOyyoO)-mi(yo=1norteX¯OyyoO)yo=1nortemi[(XyoO-mi(XyoO))2]=mi(yo=1norteXyoOyyoO)-mi(XyoO)mi(yo=1norteyyoO)yo=1nortevunar(XyoO)
=yo=1norteCov(yyoO,XyoO)yo=1nortevunar(XyoO)=yo=1norteCov(β0 0+β1XyoO+ϵyo-β1δyo, XyoO)yo=1nortevunar(XyoO)=β1yo=1nortevunar(XyoO)-β1yo=1norteCov(XyoO,δyo)yo=1nortevunar(XyoO)
=β1[1-yo=1norteCov(XyoO,δyo)/ /norteyo=1nortevunar(XyoUNA+δyo)/ /norte]=β1[1-σXδ+σδ2σX2+2Cov(XyoUNA,δyo)+σδ2]=β1[σX2+σXδσX2+2σXδ+σδ2]
, según se desee. Por lo tanto, el resultado está bien establecido.mi(β^1)=β1[σX2+σXδσX2+2σXδ+σδ2]
son520804
fuente
1

Tengo un problema similar, publicado aquí , y todavía no tengo una respuesta segura. Lo que hice por el momento es simplemente reunir un conjunto de X muy similares y verificar si hay una gran variación para Y dentro de esas líneas. Otro tipo de enfoque podría ser una simulación: utiliza una sola X de su conjunto de datos, pero replica las líneas siguiendo el error sistemático de los predictores (algo así como rnorm (..., 0,0.3)). El intervalo de confianza para la pendiente puede ser algo similar al intervalo de error sistemático.

Paolo Nadalutti
fuente
0

Recomendaría un bootstrap paramétrico en los datos. Eso significa generar nuevos conjuntos de datos que son similares al conjunto de datos real, pero son diferentes en la medida que implica su incertidumbre en cada observación.

Aquí hay un pseudocódigo para eso. Tenga en cuenta que estoy usando entradas de vector para rnorm, como es normal en el lenguaje R. También supongo que lo que está llamando son errores estándar.Δ

For each b in 1...B:
    x_PB = rnorm(x, x_se)
    y_PB = rnorm(y, y_se)
    r[b] = cor(x_PB, y_PB)

Luego mira la distribución de los valores en r.

rcorty
fuente