¿Pueden las variables independientes con baja correlación con la variable dependiente ser predictores significativos?

Tengo ocho variables independientes y una dependiente. He ejecutado una matriz de correlación, y 5 de ellos tienen una baja correlación con el DV. Luego ejecuté una regresión múltiple por pasos para ver si alguno / todos los IV pueden predecir el DV. La regresión mostró que solo dos IV pueden predecir el DV (aunque solo puede representar aproximadamente el 20% de la varianza), y SPSS eliminó el resto del modelo. Mi supervisor reconoce que no he realizado la regresión correctamente, ya que debido a la fuerza de las correlaciones, debería haber encontrado más predictores en el modelo de regresión. Pero las correlaciones eran pequeñas, así que mi pregunta es: si los IV y el DV apenas se correlacionan, ¿pueden los IV seguir siendo buenos predictores del DV?

regression correlation statistical-significance feature-selection predictor Elle
fuente

Su título y contenido muestran cierta confusión entre los términos "dependiente" e "independiente". Compruebe que mi edición conserva su significado previsto. El hecho de que las personas se confundan acerca de cuál es lo que fortalece el caso de una terminología más evocadora, como "respuesta" o "resultado" en lugar de "variable dependiente". Finalmente, en las abreviaturas, tenga en cuenta que para muchas personas "IV" significa variable instrumental .

Nick Cox

Si es posible. Una razón es el alto tamaño de la muestra. Otra razón es confusa: la variable independiente principal puede mostrar una baja correlación con la dependiente porque está respaldada por otra variable independiente. Una vez que se agrega ese factor de confusión al modelo, puede hacer que la variable independiente original cambie de no predictiva a predictiva (o predictiva a no predictiva, dependiendo de los tipos de confusión). La regresión estará totalmente de acuerdo con todas las pruebas de correlación solo cuando todas las variables independientes no están correlacionadas, eso casi nunca sucede.

Penguin_Knight

Decir una regresión gradual "demostró que solo dos IV pueden predecir el DV" sugiere que no comprende cómo funciona. Si dos IV están fuertemente correlacionados, y cualquiera de los dos predice el DV con la misma eficacia, un procedimiento gradual puede eliminar uno de manera bastante arbitraria. ¿Cuál es el problema con el uso del modelo completo 8-IV?

Scortchi - Restablece a Monica

Si tiene la tentación de usar paso a paso, busque Frank Harrell, estrategias de modelado de regresión Springer, NY, 2001 como antídoto. Está activo en este sitio y es probable que dispare cohetes si escucha la palabra "paso a paso".

Nick Cox

Cuanto más débil sea tu comprensión de las estadísticas, menos deberías meterte con los procedimientos de selección de variables. Si su objetivo es examinar cómo cada IV se relaciona con el DV después de controlar a los demás, eso es exactamente lo que le indican los coeficientes estimados (con sus intervalos de confianza) del modelo completo. Observar los factores de inflación de la varianza junto indica cómo las correlaciones entre los IV están contribuyendo a la incertidumbre. Utilice un coeficiente de determinación con validación cruzada o ajustado, , para evaluar la capacidad predictiva de todo el modelo y para verificar el ajuste excesivo.

R^{2}

$R^2$

Scortchi - Restablece a Monica

Respuestas:

Con una matriz de correlación, está examinando asociaciones incondicionales (crudas) entre sus variables. Con un modelo de regresión, está examinando las asociaciones conjuntas de sus IV con sus DV, por lo tanto, está viendo asociaciones condicionales (para cada IV, su asociación con el DV condicional en los otros IV). Dependiendo de la estructura de sus datos, estos dos pueden producir resultados muy diferentes, incluso contrarios.

miura
fuente

Casualmente, solo estaba mirando un ejemplo que había creado anteriormente para mostrar conceptos similares (en realidad para mostrar uno de los problemas con la regresión gradual). Aquí hay un código R para crear y analizar un conjunto de datos simulado:

set.seed(1)
x1 <- rnorm(25)
x2 <- rnorm(25, x1)
y <- x1-x2 + rnorm(25)
pairs( cbind(y,x1,x2) )    # Relevant results of each following line appear below...
cor( cbind(y,x1,x2) )      # rx1y  =   .08      rx2y = -.26      rx1x2 = .79
summary(lm(y~x1))          # t(23) =   .39         p = .70
summary(lm(y~x2))          # t(23) = -1.28         p = .21
summary(lm(y~x1+x2))       # t(22) =  2.54, -2.88  p = .02, .01 (for x1 & x2, respectively)

Las correlaciones y las regresiones lineales simples muestran relaciones bajas (no estadísticamente significativas) entre y cada una de las variables . Pero se definió como una función de ambos s, y la regresión múltiple muestra a ambos como predictores significativos. $y$ $x$ $y$ $x$

Greg Snow
fuente

Su pregunta sería más fácil de responder si pudiéramos ver detalles cuantitativos de la salida de su software e idealmente también ver los datos.

¿Qué es la "baja correlación", en particular? ¿Qué nivel de importancia estás usando? ¿Existen relaciones integradas entre los predictores que provocan que SPSS disminuya algo?

Tenga en cuenta que no tenemos margen para juzgar si utilizó la sintaxis mejor o más adecuada para su propósito, ya que no indica exactamente lo que hizo.

En términos generales, las bajas correlaciones entre los predictores y los resultados implican que la regresión puede ser decepcionante de la misma manera que se necesita chocolate para hacer pastel de chocolate. Danos más detalles y deberías obtener una mejor respuesta.

También en términos generales, la decepción de su supervisor no implica que haya hecho algo incorrecto. Si su supervisor conoce menos estadísticas que usted, debe buscar asesoramiento y apoyo de otras personas en su institución.

Nick Cox
fuente

Gracias a todos. Sé que esta es una pequeña pregunta para bebés. He percibido el estrés ya que mi DV y mis IV son Locus de control (con 3 subescalas), Apoyo social, Autoeficacia de afrontamiento (3 subescalas) e Inteligencia emocional (todo esto se relaciona con cuestionarios de autoinforme) y quiero saber cómo / si Los DV pueden predecir el estrés percibido. Miré las correlaciones entre todas las variables, todas están en su mayoría por debajo de .40, el nivel de significación es .001. Ejecuté una correlación de Pearson primero para ver si los DV se correlacionan con el estrés percibido, luego la regresión para ver si pueden predecir el estrés.

Elle

Como @miura enfatiza correctamente, pueden suceder cosas divertidas, pero estos resultados parecen perfectamente consistentes con relativamente bajos

R^{2}

$R^2$ .

Nick Cox