Supongamos que tengo un conjunto de datos en el que la incertidumbre en las mediciones (que provienen de la propagación de errores sistemáticos del aparato de medición) es diferente para cada punto. Si hago una regresión lineal en el conjunto de datos, ¿cómo calculo la incertidumbre en la pendiente? Me gustaría un procedimiento o fórmula explícita.
linear-model
measurement-error
errors-in-variables
Iván Mauricio Burbano
fuente
fuente
Respuestas:
Podemos modelar el experimento como donde denotar valores verdaderos, son errores de medición, son sus componentes "fijos" independientes de la observación (que podría surgir de una calibración incorrecta de los sensores) y varían de una observación a otra. observación y corresponden a muchos factores posibles que tratamos como aleatorios.
La regresión lineal simple es y la estimación OLS de la pendiente es Sin embargo, lo que obtenemos es
Ahora supongamos que no están correlacionadas con y entre sí (una suposición bastante sólida que puede mejorarse si tenemos más inferencias sobre la naturaleza de los errores). Entonces nuestra estimación es Podemos estimar como una variación de muestra de . También necesitamos estimar . Si tenemos un experimento en el que podemos observar varias veces, entonces un enfoque simple es estimar ].v , u X∗,y∗
Ahora podemos usar nuestro calculado con, por ejemplo, el método bootstrap, y corregirlo para para que .σ^2β~ β^=β~/ /λ^
fuente
Creo que la respuesta dada por @yshilov es definitivamente increíble al considerar el error de medición en el término de error y significativamente, deduce el resultado
Para elaborar, esta beta tiene propiedades especiales de que es un estimador sesgado, pero sesgado hacia 0. Específicamente, para regresión lineal,mi(β^1) =β1⋅ [σ2X+σx δσ2X+ 2σx δ+σ2δ]
La prueba es la siguiente: en regresión lineal simple, recordar En el caso de error de medición, tenemos , , y , entonces obtenemos Suponiendo que , , y la varianza del valor predictor verdadero
fuente
Tengo un problema similar, publicado aquí , y todavía no tengo una respuesta segura. Lo que hice por el momento es simplemente reunir un conjunto de X muy similares y verificar si hay una gran variación para Y dentro de esas líneas. Otro tipo de enfoque podría ser una simulación: utiliza una sola X de su conjunto de datos, pero replica las líneas siguiendo el error sistemático de los predictores (algo así como rnorm (..., 0,0.3)). El intervalo de confianza para la pendiente puede ser algo similar al intervalo de error sistemático.
fuente
Recomendaría un bootstrap paramétrico en los datos. Eso significa generar nuevos conjuntos de datos que son similares al conjunto de datos real, pero son diferentes en la medida que implica su incertidumbre en cada observación.
Aquí hay un pseudocódigo para eso. Tenga en cuenta que estoy usando entradas de vector paraΔ
rnorm
, como es normal en el lenguaje R. También supongo que lo que está llamando son errores estándar.Luego mira la distribución de los valores en r.
fuente