Métodos para ajustar un modelo de error de medición "simple"

13

Estoy buscando métodos que puedan usarse para estimar el modelo de error de medición "OLS".

x i = X i + e x , i Y i = α + β X i

yi=Yi+ey,i
xi=Xi+ex,i
Yi=α+βXi

Donde los errores son normales e independientes con variaciones desconocidas y . "OLS" estándar no funcionará en este caso. σ 2 xσy2σx2

Wikipedia tiene algunas soluciones poco atractivas: las dos te obligan a asumir que la "relación de varianza" o la " relación de fiabilidad " , donde es la varianza del verdadero regresor . No estoy satisfecho con esto, porque ¿cómo puede alguien que no conoce las variaciones conocer su relación? λ=σ 2 Xδ=σy2σx2 σ 2 X Xiλ=σX2σx2+σX2σX2Xi

De todos modos, ¿hay otras soluciones además de estas dos que no requieran que yo "sepa" nada sobre los parámetros?

Las soluciones solo para la intersección y la pendiente están bien.

probabilidadislogica
fuente
El artículo de Wikipedia en sí le proporciona la respuesta a esta pregunta. Si asume la normalidad del regresor "verdadero", entonces necesita condiciones adicionales sobre la distribución de los errores. Si el verdadero regresor no es gaussiano, entonces tienes alguna esperanza. Ver Reiersol (1950) .
cardenal
Además, ¿qué quiere decir con "las soluciones para la intercepción y la pendiente están bien". ¡Esos son tus dos únicos parámetros! ¿O esperabas tratar de dar marcha atrás también al regresor "verdadero"?
cardenal
@cardinal: quise decir que no me importaban especialmente los dos parámetros de escala y, como usted dice, el "verdadero" regresor . Xi
probabilidadislogica
Veo. Eso tiene sentido.
cardenal

Respuestas:

7

Hay una gama de posibilidades descritas por JW Gillard en Una descripción histórica de la regresión lineal con errores en ambas variables

Si no está interesado en los detalles o razones para la elección de un método sobre otro, sólo tiene que ir con el más simple, que consiste en trazar la línea a través del centro de gravedad con pendiente β = s y / s x , es decir, la razón de las desviaciones estándar observadas (haciendo que el signo de la pendiente sea el mismo que el signo de la covarianza de x e ); como probablemente pueda resolver, esto da una intersección en el eje de(x¯,y¯)β^=sy/sxxyyα^=y¯β^x¯.

Los méritos de este enfoque particular son

  1. da la misma línea que compara contra como contra ,y y xxyyx
  2. es invariante de escala, por lo que no necesita preocuparse por las unidades,
  3. se encuentra entre las dos líneas de regresión lineal ordinarias
  4. los cruza donde se cruzan en el centroide de las observaciones, y
  5. Es muy fácil de calcular.

La pendiente es la media geométrica de las pendientes de las dos pendientes de regresión lineal ordinarias. También es lo que obtendría si estandarizara las observaciones e y , dibujara una línea a 45 ° (o 135 ° si hay una correlación negativa) y luego desestandarice la línea. También podría verse como equivalente a hacer una suposición implícita de que las variaciones de los dos conjuntos de errores son proporcionales a las variaciones de los dos conjuntos de observaciones; Por lo que puedo decir, afirmas que no sabes de qué manera esto está mal.xy

Aquí hay un código R para ilustrar: la línea roja en el gráfico es la regresión OLS de en X , la línea azul es la regresión OLS de X en Y , y la línea verde es este método simple. Tenga en cuenta que la pendiente debe ser de aproximadamente 5.YXXY

X0 <- 1600:3600
Y0 <- 5*X0 + 700
X1 <- X0 + 400*rnorm(2001)
Y1 <- Y0 + 2000*rnorm(2001)
slopeOLSXY  <- lm(Y1 ~ X1)$coefficients[2]     #OLS slope of Y on X
slopeOLSYX  <- 1/lm(X1 ~ Y1)$coefficients[2]   #Inverse of OLS slope of X on Y
slopesimple <- sd(Y1)/sd(X1) *sign(cov(X1,Y1)) #Simple slope
c(slopeOLSXY, slopeOLSYX, slopesimple)         #Show the three slopes
plot(Y1~X1)
abline(mean(Y1) - slopeOLSXY  * mean(X1), slopeOLSXY,  col="red")
abline(mean(Y1) - slopeOLSYX  * mean(X1), slopeOLSYX,  col="blue")
abline(mean(Y1) - slopesimple * mean(X1), slopesimple, col="green")
Enrique
fuente
@Henry, su definición de β no tiene ningún sentido para mí. ¿Faltan algunos "sombreros"? β^
cardenal
Significa ser la desviación estándar observada de dividida por la desviación estándar observada de { x i } . Cambiaré σ a s{yi}{xi}σs
Henry
@ Henry, ¿puedes aclarar algunos de tus comentarios? Algo me parece estar apagado según tu descripción actual. Deje β x y sea la pendiente asumiendo y es la respuesta y x es el predictor. Deje β y x sea la pendiente suponiendo x es la respuesta y y el predictor. Entonces β x Y = ρ s y / s x y β y x = ρ s x / sβ^xyyxβ^yxxyβ^xy=ρ^sy/sx , donde ρ es la muestrade correlaciónentre x y y . De ahí que la media geométrica de estos dos estimaciones de pendiente es sólo ρ . β^yx=ρ^sx/syρ^xyρ^
cardenal
@cardinal: No, cuando veo quiero decir que la pendiente es 1 / b, ya que puede reescribirse como y = x / b - c / b . Cuando intenta dibujar las dos líneas OLS en el mismo gráfico junto con los puntos observados (por ejemplo, con y en el eje vertical yx en el eje horizontal), debe invertir una de las pendientes. Por lo que quería decir que se toma la media geométrica de ρ s y / s x y s y /x=by+c1/by=x/bc/byxρ^sy/sx, que es simplementesy/sx. O, si no es lo suficientemente convencional como para trazaryyxal revés para ambas líneas y los puntos observados, entonces obtiene el inverso de eso como la pendiente. sy/ρ^sxsy/sxyx
Henry
@ Henry - esa es una respuesta bastante interesante. No dudo necesariamente de su validez, pero una cosa que me sorprende es que la correlación / covarianza entre y X está completamente ausente de la respuesta. ¿Seguramente esto debería ser relevante para la respuesta? YX
probabilidadislogica