¿Importa el orden variable en regresión lineal?

9

Estoy investigando la interacción entre dos variables ( y x 2 ). Existe una gran correlación lineal entre estas variables con r > 0.9 . Por la naturaleza del problema, no puedo decir nada sobre la causalidad (si x 1 causa x 2 o al revés). Me gustaría estudiar las desviaciones de la línea de regresión, para detectar valores atípicos. Para hacer esto, puedo construir una regresión lineal de x 1 en función de x 2 , o al revés. ¿Puede mi elección del orden variable influir en mis resultados?X1X2r>0.9X1X2X1X2

Jorge
fuente
En la búsqueda de valores atípicos, debe regresar a su primera variable dependiente tanto contra y x 2 y el aspecto de los valores atípicos. X1X2
schenectady
¿La búsqueda de valores atípicos es la elección de su investigación? Si es así, primero debe hacer una regresión de su variable dependiente contra y x 2 y luego realizar pruebas atípicas. Si encuentra una posible causalidad, entonces debería considerar realizar un experimento diseñado. Si el propósito de su experimento es encontrar una relación entre sus dos variables independientes, mirar la casualidad de los datos recopilados no será suficiente. X1X2
schenectady
No me queda claro a qué te refieres con valores atípicos. Si hay datos atípicos en sus datos, afectarán el cálculo de la línea de regresión. ¿Por qué estás buscando valores atípicos en y x 2 simultáneamente? X1X2
DQdlM
@schenectady Use $$ para LaTeX en los comentarios, por favor.

Respuestas:

3

Seguramente puede (en realidad, incluso importa con respecto a las suposiciones en sus datos; solo hace suposiciones sobre la distribución del resultado dada la covariable). En este sentido, puede buscar un término como "varianza de predicción inversa". De cualquier manera, ¡la regresión lineal no dice nada sobre la causalidad! En el mejor de los casos, puede decir algo sobre la causalidad a través de un diseño cuidadoso.

Nick Sabbe
fuente
3

Para hacer que el caso sea simétrico, uno puede retroceder la diferencia entre las dos variables ( ) frente a su valor promedio.ΔX

Boris Gorelik
fuente
3

La regresión estándar minimiza la distancia vertical entre los puntos y la línea, por lo que cambiar las 2 variables ahora minimizará la distancia horizontal (dada la misma gráfica de dispersión). Otra opción (que tiene varios nombres) es minimizar la distancia perpendicular, esto se puede hacer utilizando componentes principales.

Aquí hay un código R que muestra las diferencias:

library(MASS)

tmp <- mvrnorm(100, c(0,0), rbind( c(1,.9),c(.9,1)) )

plot(tmp, asp=1)

fit1 <- lm(tmp[,1] ~ tmp[,2])  # horizontal residuals
segments( tmp[,1], tmp[,2], fitted(fit1),tmp[,2], col='blue' )
o <- order(tmp[,2])
lines( fitted(fit1)[o], tmp[o,2], col='blue' )

fit2 <- lm(tmp[,2] ~ tmp[,1])  # vertical residuals
segments( tmp[,1], tmp[,2], tmp[,1], fitted(fit2), col='green' )
o <- order(tmp[,1])
lines( tmp[o,1], fitted(fit2)[o], col='green' )

fit3 <- prcomp(tmp)
b <- -fit3$rotation[1,2]/fit3$rotation[2,2]
a <- fit3$center[2] - b*fit3$center[1]
abline(a,b, col='red')
segments(tmp[,1], tmp[,2], tmp[,1]-fit3$x[,2]*fit3$rotation[1,2], tmp[,2]-fit3$x[,2]*fit3$rotation[2,2], col='red')

legend('bottomright', legend=c('Horizontal','Vertical','Perpendicular'), lty=1, col=c('blue','green','red'))

Para buscar valores atípicos, solo puede trazar los resultados del análisis de componentes principales.

También es posible que desee mirar:

Bland y Altman (1986), Métodos estadísticos para evaluar el acuerdo entre dos métodos de medición clínica. Lancet, pp 307-310

Greg Snow
fuente
0

Sus variables x1 y x2 son colineales. En presencia de multicolinealidad, sus estimaciones de parámetros siguen siendo imparciales, pero su varianza es grande, es decir, su inferencia sobre la importancia de las estimaciones de parámetros no es válida, y su predicción tendrá grandes intervalos de confianza.

La interpretación de las estimaciones de los parámetros también es difícil. En el marco de regresión lineal, la estimación del parámetro en x1 es el cambio en Y para un cambio unitario en x1 dado que todas las demás variables exógenas en el modelo se mantienen constantes. En su caso, x1 y x2 están altamente correlacionados, y no puede mantener constante x2 cuando x1 está cambiando.

yeveee
fuente