Estoy investigando la interacción entre dos variables ( y x 2 ). Existe una gran correlación lineal entre estas variables con r > 0.9 . Por la naturaleza del problema, no puedo decir nada sobre la causalidad (si x 1 causa x 2 o al revés). Me gustaría estudiar las desviaciones de la línea de regresión, para detectar valores atípicos. Para hacer esto, puedo construir una regresión lineal de x 1 en función de x 2 , o al revés. ¿Puede mi elección del orden variable influir en mis resultados?
regression
outliers
linear-model
Jorge
fuente
fuente
Respuestas:
Seguramente puede (en realidad, incluso importa con respecto a las suposiciones en sus datos; solo hace suposiciones sobre la distribución del resultado dada la covariable). En este sentido, puede buscar un término como "varianza de predicción inversa". De cualquier manera, ¡la regresión lineal no dice nada sobre la causalidad! En el mejor de los casos, puede decir algo sobre la causalidad a través de un diseño cuidadoso.
fuente
Para hacer que el caso sea simétrico, uno puede retroceder la diferencia entre las dos variables ( ) frente a su valor promedio.Δ x
fuente
La regresión estándar minimiza la distancia vertical entre los puntos y la línea, por lo que cambiar las 2 variables ahora minimizará la distancia horizontal (dada la misma gráfica de dispersión). Otra opción (que tiene varios nombres) es minimizar la distancia perpendicular, esto se puede hacer utilizando componentes principales.
Aquí hay un código R que muestra las diferencias:
Para buscar valores atípicos, solo puede trazar los resultados del análisis de componentes principales.
También es posible que desee mirar:
fuente
Sus variables x1 y x2 son colineales. En presencia de multicolinealidad, sus estimaciones de parámetros siguen siendo imparciales, pero su varianza es grande, es decir, su inferencia sobre la importancia de las estimaciones de parámetros no es válida, y su predicción tendrá grandes intervalos de confianza.
La interpretación de las estimaciones de los parámetros también es difícil. En el marco de regresión lineal, la estimación del parámetro en x1 es el cambio en Y para un cambio unitario en x1 dado que todas las demás variables exógenas en el modelo se mantienen constantes. En su caso, x1 y x2 están altamente correlacionados, y no puede mantener constante x2 cuando x1 está cambiando.
fuente