Multicolinealidad cuando las regresiones individuales son significativas, pero los VIF son bajos

13

Tengo 6 variables ( ) que estoy usando para predecir . Al realizar mi análisis de datos, primero probé una regresión lineal múltiple. A partir de esto, solo dos variables fueron significativas. Sin embargo, cuando ejecuté una regresión lineal comparando cada variable individualmente con , todas menos una fueron significativas ( cualquier lugar de menos de 0.01 a menos de 0.001). Se sugirió que esto se debía a la multicolinealidad. y y px1...x6yyp

Mi investigación inicial sobre esto sugiere verificar la multicolinealidad mediante el uso de VIF . Descargué el paquete apropiado de R y terminé con los VIF resultantes: 3.35, 3.59, 2.64, 2.24 y 5.56. Según varias fuentes en línea, el punto en el que debe preocuparse por la multicolinealidad con sus VIF es 4 o 5.

Ahora estoy perplejo sobre lo que esto significa para mis datos. ¿Tengo o no tengo un problema de multicolinealidad? Si lo hago, ¿cómo debo proceder? (No puedo recopilar más datos, y las variables son partes de un modelo que obviamente no están relacionadas) Si no tengo este problema, entonces, ¿qué debo tomar de mis datos, particularmente el hecho de que estas variables son altamente significativas individualmente, pero no significativo en absoluto cuando se combinan.

Editar: se han hecho algunas preguntas con respecto al conjunto de datos, por lo que me gustaría ampliar ...

En este caso particular, buscamos comprender cómo las señales sociales específicas (gesto, mirada, etc.) afectan la probabilidad de que alguien produzca alguna otra señal. Nos gustaría que nuestro modelo incluya todos los atributos importantes, por lo que me incomoda eliminar algunos que parecen redundantes.

No hay ninguna hipótesis con esto en este momento. Más bien, el problema no se ha estudiado, y estamos buscando obtener una mejor comprensión de qué atributos son importantes. Por lo que puedo decir, estos atributos deberían ser relativamente independientes entre sí (no se puede decir que la mirada y los gestos son los mismos, o uno el subconjunto de otro). Sería bueno poder informar valores p para todo, ya que nos gustaría que otros investigadores entiendan lo que se ha observado.

Edición 2: dado que apareció en algún lugar debajo, mi es 24.n

cryptic_star
fuente
Asumiendo que no tiene multicolinealidad, se puede incrementar, como @ rolando2 sugiere, en la finalidad prevista del modelo? ¿Es el caso que todos los predictores son importantes para otros investigadores (en cuyo caso le gustaría informar niveles de significancia para cada uno de ellos), o podría simplemente descartar uno o dos de ellos?
@jlovegren Agregué información arriba; avíseme si necesita más información.
cryptic_star
¿Las variables explicativas se miden en una escala continua? En ese caso, existen métodos para la residualización que no son demasiado difíciles. Si son categóricos, no lo sé, pero espero que alguien más lo haga (he hecho una pregunta similar en este sitio).
@jlovegren Cinco de las seis variables son recuentos.
cryptic_star
Una cosa más, solo para estar seguro. ¿los recuentos tienen un límite superior claro que se alcanza con frecuencia, o si el valor máximo del recuento no está limitado en principio?

Respuestas:

18

Para comprender lo que puede suceder, es instructivo generar (y analizar) datos que se comporten de la manera descrita.

Por simplicidad, olvidemos esa sexta variable independiente. Entonces, la pregunta describe regresiones de una variable dependiente contra cinco variables independientes , en las queyx1,x2,x3,x4,x5

  • Cada regresión ordinaria es significativa a niveles de a menos de .yxi0.010.001

  • La regresión múltiple produce coeficientes significativos solo para y .yx1++x5x1x2

  • Todos los factores de inflación de varianza (VIF) son bajos, lo que indica un buen condicionamiento en la matriz de diseño (es decir, falta de colinealidad entre ).xi

Hagamos que esto suceda de la siguiente manera:

  1. Genere valores normalmente distribuidos para y . (Elegiremos más tarde).nx1x2n

  2. Sea donde es un error normal independiente de la media . Se necesitan algunas pruebas y errores para encontrar una desviación estándar adecuada para ; funciona bien (y es bastante dramático: está extremadamente bien correlacionado con y , aunque solo está moderadamente correlacionado con y individualmente).ε 0 ε 1 / 100 y x 1 x 2 x 1 x 2y=x1+x2+εε0ε1/100yx1x2x1x2

  3. Deje = , , donde es un error normal estándar independiente. Esto hace que solo dependan ligeramente de . Sin embargo, a través de la estrecha correlación entre e , esto induce una pequeña correlación entre y estos .x 1 / 5 + δ j = 3 , 4 , 5 δ x 3 , x 4 , x 5 x 1 x 1 y y x jxjx1/5+δj=3,4,5δx3,x4,x5x1x1yyxj

Aquí está el problema: si hacemos suficientemente grande, estas correlaciones leves darán lugar a coeficientes significativos, a pesar de que se explica casi por completo solo por las dos primeras variables.yny

Descubrí que funciona bien para reproducir los valores p informados. Aquí hay una matriz de diagrama de dispersión de las seis variables:n=500

spm

Al inspeccionar la columna derecha (o la fila inferior) puede ver que tiene una buena correlación (positiva) con y pero poca correlación aparente con las otras variables. Al inspeccionar el resto de esta matriz, puede ver que las variables independientes parecen no estar correlacionadas entre sí (la máscara aleatoria de las pequeñas dependencias que sabemos que existen). No hay datos excepcionales, nada terriblemente periférico o con alto apalancamiento. Los histogramas muestran que las seis variables están aproximadamente distribuidas normalmente, por cierto: estos datos son tan comunes y "simples" como uno podría desear.x 1 x 2 x 1 , , x 5 δyx1x2x1,,x5δ

En la regresión de contra y , los valores de p son esencialmente 0. En las regresiones individuales de contra , luego contra e contra , los valores de p son 0.0024, 0.0083 y 0.00064, respectivamente : es decir, son "altamente significativos". Pero en la regresión múltiple completa, los valores p correspondientes se inflan a .46, .36 y .52, respectivamente: no son significativos en absoluto. La razón de esto es que una vez que ha sido regresado contra yx 1 x 2 y x 3 y x 4 y x 5 y x 1 x 2 ε x i x 1 x 2 x i i = 3 , 4 , 5 x 1 x 2yx1x2yx3yx4yx5yx1x2, lo único que queda por "explicar" es la pequeña cantidad de error en los residuos, que se aproximará a , y este error no está relacionado con el restante . ("Casi" es correcto: hay una relación muy pequeña inducida por el hecho de que los residuos se calcularon en parte a partir de los valores de y y el , , tiene una relación débil con y . Sin embargo, esta relación residual es prácticamente indetectable, como vimos).εxix1x2xii=3,4,5x1x2

El número de acondicionamiento de la matriz de diseño es solo 2.17: es muy bajo, no muestra ninguna indicación de alta multicolinealidad. (La perfecta falta de colinealidad se reflejaría en un número de condicionamiento de 1, pero en la práctica esto solo se ve con datos artificiales y experimentos diseñados. Los números de condicionamiento en el rango 1-6 (o incluso más, con más variables) no son notables). Esto completa la simulación: ha reproducido con éxito todos los aspectos del problema.

Las ideas importantes que ofrece este análisis incluyen

  1. Los valores p no nos dicen nada directamente sobre la colinealidad. Dependen fuertemente de la cantidad de datos.

  2. Las relaciones entre los valores p en regresiones múltiples y los valores p en regresiones relacionadas (que involucran subconjuntos de la variable independiente) son complejas y generalmente impredecibles.

En consecuencia, como otros han argumentado, los valores p no deberían ser su única guía (o incluso su guía principal) para la selección del modelo.


Editar

No es necesario que sea ​​tan grande como para que aparezcan estos fenómenos. n500 Inspirado por información adicional en la pregunta, el siguiente es un conjunto de datos construido de manera similar con (en este caso para ). Esto crea correlaciones de 0,38 a 0,73 entre y . El número de condición de la matriz de diseño es 9.05: un poco alto, pero no terrible. (Algunas reglas generales dicen que los números de condición tan altos como 10 están bien.) Los valores p de las regresiones individuales contran=24xj=0.4x1+0.4x2+δj=3,4,5x12x35x3,x4,x5son 0.002, 0.015 y 0.008: significativo a altamente significativo. Por lo tanto, está involucrada cierta multicolinealidad, pero no es tan grande como para trabajar para cambiarla. La idea básica sigue siendo la misma : significado y multicolinealidad son cosas diferentes; solo hay restricciones matemáticas leves entre ellos; y es posible que la inclusión o exclusión de incluso una sola variable tenga profundos efectos en todos los valores p, incluso sin que la multicolinealidad grave sea un problema.

x1 x2 x3 x4 x5 y
-1.78256    -0.334959   -1.22672    -1.11643    0.233048    -2.12772
0.796957    -0.282075   1.11182 0.773499    0.954179    0.511363
0.956733    0.925203    1.65832 0.25006 -0.273526   1.89336
0.346049    0.0111112   1.57815 0.767076    1.48114 0.365872
-0.73198    -1.56574    -1.06783    -0.914841   -1.68338    -2.30272
0.221718    -0.175337   -0.0922871  1.25869 -1.05304    0.0268453
1.71033 0.0487565   -0.435238   -0.239226   1.08944 1.76248
0.936259    1.00507 1.56755 0.715845    1.50658 1.93177
-0.664651   0.531793    -0.150516   -0.577719   2.57178 -0.121927
-0.0847412  -1.14022    0.577469    0.694189    -1.02427    -1.2199
-1.30773    1.40016 -1.5949 0.506035    0.539175    0.0955259
-0.55336    1.93245 1.34462 1.15979 2.25317 1.38259
1.6934  0.192212    0.965777    0.283766    3.63855 1.86975
-0.715726   0.259011    -0.674307   0.864498    0.504759    -0.478025
-0.800315   -0.655506   0.0899015   -2.19869    -0.941662   -1.46332
-0.169604   -1.08992    -1.80457    -0.350718   0.818985    -1.2727
0.365721    1.10428 0.33128 -0.0163167  0.295945    1.48115
0.215779    2.233   0.33428 1.07424 0.815481    2.4511
1.07042 0.0490205   -0.195314   0.101451    -0.721812   1.11711
-0.478905   -0.438893   -1.54429    0.798461    -0.774219   -0.90456
1.2487  1.03267 0.958559    1.26925 1.31709 2.26846
-0.124634   -0.616711   0.334179    0.404281    0.531215    -0.747697
-1.82317    1.11467 0.407822    -0.937689   -1.90806    -0.723693
-1.34046    1.16957 0.271146    1.71505 0.910682    -0.176185
whuber
fuente
Dado que estoy trabajando para explicar las relaciones entre estas variables y su importancia para predecir la y, ¿la falta de colinealidad me dice esencialmente lo que me dijo la regresión lineal múltiple inicial: que solo dos variables son importantes? Si las variables mostraran colinealidad, ¿significaría que varias son importantes, pero proporcionan información similar? Avíseme si me estoy perdiendo completamente el punto: de ninguna manera soy un experto en estadísticas.
cryptic_star
Ah, y agregaré esto a mi publicación original, pero mi n es 24 (los sujetos humanos funcionan, así que eso es bastante alto). Según su publicación, puedo suponer que esta es la razón por la cual las personas multicolineales sugieren obtener más datos, para resaltar mejor las diferencias.
cryptic_star
Proporciono un nuevo ejemplo que muestra cómo pueden ocurrir tus fenómenos incluso cuando . Se podría modificar fácilmente para que todos los números involucrados sean números enteros positivos: recuentos, es decir. n=24
whuber
1
Re su primer comentario: la colinealidad sugiere que algunas de las variables explicativas (IV) pueden ser redundantes, pero este no es necesariamente el caso. Lo que importa son las relaciones entre los IV y la variable dependiente (DV). Es posible que una de las vías intravenosas dependa en gran medida de las otras vías intravenosas, pero que contenga información excepcionalmente útil relacionada con la DV. Este es un concepto crítico: ninguna cantidad de análisis de las relaciones entre los IV por sí solo le dirá qué variables explican mejor la DV. La falta de colinealidad, una propiedad exclusiva de los IV, no revela nada sobre el DV.
whuber
9

¿Tengo o no tengo un problema de multicolinealidad? Si lo hago, ¿cómo debo proceder?

No es una situación de uno u otro. Y soy escéptico sobre la directriz "4 o 5". Para cada uno de sus predictores, el error estándar del coeficiente es entre 2.2 y 5.6 veces mayor que si el predictor no estuviera correlacionado con los demás. Y la porción de un predictor dado que no puede explicarse por los otros varía de 1 / 2.2 a 1 / 5.6, o 18% a 45%. En conjunto, eso parece una cantidad bastante sustancial de colinealidad.

Pero retrocedamos un minuto. ¿Realmente estás tratando de predecir * Y *, en lugar de tratar de explicarlo ? Si es lo primero, entonces supongo que no debe preocuparse si el nivel de significancia de una variable dada cambia cuando hay otros presentes en el modelo. Su trabajo es realmente mucho más fácil de lo que sería si se necesitara una explicación verdadera.

Si su objetivo es la explicación, deberá considerar la forma en que estas variables se interrelacionan, algo que requiere más que información estadística. Es evidente que se superponen en la forma en que se relacionan con Y , y esto colinealidad harán que sea difícil establecer, por ejemplo, su orden de rango de importancia en la contabilización de Y . En esta situación, no hay un camino claro para seguir.

En cualquier caso, espero que esté considerando métodos de validación cruzada.

rolando2
fuente
Esta respuesta, como la de John, parece confundir los valores p bajos con una correlación alta. Recuerde: los errores estándar de los coeficientes disminuyen con cantidades crecientes de datos ( caeteris paribus ), por lo que los valores p bajos se pueden lograr con datos que casi no tienen correlaciones, siempre que haya suficientes observaciones presentes.
whuber
¿Confunde valores p bajos con correlación alta? Pas du tout!
rolando2
Luego, explique cómo un concepto estrictamente de valor p ("el error estándar del coeficiente es entre 2.2 y 5.6 veces más grande de lo que sería si el predictor no estuviera correlacionado con los demás") lo lleva a concluir "que parece bastante sustancial cantidad de colinealidad ", que está fuertemente relacionada con la correlación (las medidas de colinealidad son propiedades de la matriz de correlación cuando las variables están estandarizadas).
whuber
Lo miro de esta manera. Cuando VIF es 5.6, el 82% de la varianza en ese predictor puede ser explicado por los otros predictores. No veo cómo esto podría depender de N.
rolando2
1
Como contrapunto a esta evaluación pesimista (que tiene cierta justificación en las reglas generales, como requerir 5-10 veces más observaciones que variables), es notable que campos completos de modelado y análisis de datos hayan crecido en torno a problemas que tienen pocas observaciones y muchos predictores, como DACE (diseño y análisis de experimentos informáticos). Ver ressources-actuarielles.net/EXT/ISFA/1226.nsf/… para un artículo seminal.
whuber
6

Tienes multicolinealidad. Su análisis inicial lo demostró. En lo que respecta a ser un problema, esa es otra pregunta que parece tener muchas respuestas en su caso.

Tal vez si comprendes mejor el problema básico, ¿sería más obvio qué hacer? ...

Con la multicolinealidad, sus coeficientes de regresión son sobre las contribuciones únicas (mucho más cercanas a las únicas) de cada variable a su modelo. Si algunos están correlacionados entre sí, entonces la contribución única de cada uno correlacionado es menor. Probablemente sea por eso que ninguno es significativo cuando están todos juntos, pero cuando se usan solos pueden serlo.

Lo primero que probablemente deba hacer es considerar qué significa la intercorrelación entre sus variables. Por ejemplo, ¿tiene un montón de variables que simplemente representan lo mismo? ¿Acabas de medir tus predictores en una escala pobre y obtener correlaciones incidentales? No intentes arreglar la regresión, trata de entender tus variables.

Considere X1 y X2 con una correlación muy fuerte entre ellos, digamos r = 0.90. Si coloca X1 en el modelo y es un predictor significativo, es probable que otro modelo con X2 solo sea también significativo porque son casi lo mismo. Si los coloca en el modelo juntos, al menos uno de ellos tendrá que sufrir porque la regresión múltiple resolverá sus contribuciones únicas. Ambos podrían no ser significativos. Pero ese no es el punto, el punto es reconocer por qué se superponen tanto y si incluso dicen algo diferente el uno del otro y si los necesitas o no. Tal vez uno expresa una idea más significativa y más relacionada con su variable de respuesta que el otro. Tal vez concluirás que son lo mismo con diferentes niveles de variabilidad.

Además, al mirar modelos de cualquier tipo, pero especialmente con predictores intercorrelacionados, los valores p son una forma terrible de saber si un nuevo predictor hace una contribución significativa (si eso es lo que está tratando de hacer ... no está seguro de lo que intenta hacerlo porque parece que solo está tratando de hacer que la regresión sea A) simple o B) salga de la manera que desea ... ninguno de los cuales es factible). Probablemente sea mejor mirar AIC para ayudarlo a determinar qué predictores debe mantener y cuáles no contribuyen en nada.

John
fuente
¿Cómo demuestran los valores p bajos la multicolinealidad? Los dos conceptos son completamente diferentes. Con suficientes datos, puede tener valores p bajos y casi ninguna colinealidad.
whuber
Esto es exactamente lo que estoy cuestionando, John: has concluido en tu primera oración que lo que describe el OP implica "Tienes multicolinealidad". Pero esto es exactamente lo que el OP quiere saber: "¿Tengo o no tengo un problema de multicolinealidad"? Sostengo que la respuesta correcta es "no nos ha proporcionado suficiente información, pero probablemente no" porque los fenómenos descritos en la pregunta son perfectamente consistentes con problemas bien condicionados. De hecho, los bajos VIF reportados por el OP sugieren que su afirmación es falsa.
whuber
No dije eso en ningún lado. Quizás te refieres a lo que dije sobre el análisis inicial. El análisis inicial fue que los efectos cambian mucho dependiendo de qué otros efectos se agregaron. Eso se debió a la multicolinealidad (aunque no lo cuantifica). Por supuesto, la importancia es un tema diferente. ¿Realmente no sé a qué te refieres?
John
Lo siento Whuber por actualizar el comentario, pero el tuyo funciona bien de todos modos ... lectores, los dos últimos anteriores se invierten y es mi culpa. Whuber, solo estaba enfocado en la palabra "problema". La multicolinealidad es algo que cuantificas. Hay algunos. Sugiere pensar mucho sobre las variables independientemente. También sugiere que la razón por la que los predictores aditivos están cambiando cuando se agregan o eliminan se debe a esa multicolinealidad. No tuve la impresión de que el interlocutor realmente quisiera una respuesta sobre si era un "problema" de cálculo.
John
Es posible que interpretemos la pregunta de diferentes maneras, John. Como no quiero dejar el problema posiblemente confundido por mis comentarios aquí, agregué una respuesta para explicar mi punto.
whuber
2

Personalmente, usaría índices de condición y la tabla explicada de varianza para analizar la colinealidad.

Tampoco usaría los valores de p como criterio para la construcción de modelos, y al comparar modelos con 6 IVs con modelos con 1, miraría los cambios en el tamaño del efecto del parámetro para la variable que es ambas.

Pero ciertamente puede obtener los resultados que menciona sin colinealidad. La colinealidad solo se trata de las variables X y su relación. Pero dos variables podrían relacionarse fuertemente con Y mientras que no se relacionan fuertemente entre sí.

Peter Flom - Restablece a Monica
fuente
1
Esto me parece poco intuitivo, que dos variables podrían relacionarse fuertemente con Y sin relacionarse fuertemente entre sí. ¿Hay algún ejemplo al que me puedas indicar o una explicación más larga?
cryptic_star
@Peter: con 1- (1 / 5.6) = 82% de la varianza en ese último predictor explicado por los demás, ¿por qué dice que podría no haber colinealidad?
rolando2
3
x1x2y=x1+x2yx1x2x1x2
0

Con respecto a la multicolinealidad, se mencionan varios umbrales que generalmente convergen alrededor de un VIF de 10 correspondiente a un valor R cuadrado subyacente de 0,90 entre la variable probada y las otras variables independientes. Los VIF de sus variables parecen transitables, y técnicamente podría mantenerlos en un modelo.

Sin embargo, usaría un método de regresión gradual para ver cuáles son la mejor combinación de variables y cuánta más explicación (aumento incremental en R Square) obtienes al agregar variables. El punto de referencia de arbitraje debe ser el valor R cuadrado ajustado que ajusta el valor R cuadrado hacia abajo penalizando el modelo para agregar variables.

Sus variables están algo correlacionadas entre sí. Esto es inevitable, es solo una cuestión de grado. Dados los VIF que menciona, sospecho intuitivamente que obtendrá la gran mayoría de la información / explicación de la mejor combinación de 2 variables. Y que agregar variables puede agregar solo un valor incremental marginal.

Al observar la combinación de variables que se seleccionan mediante el proceso de regresión gradual, también me gustaría ver qué variables se seleccionan y si sus signos de coeficiente de regresión son consistentes con su correlación con y. Si no lo son, puede deberse a una interacción legítima entre las variables. Pero también podría ser el resultado del sobreajuste del modelo y que los coeficientes de regresión son espurios. Reflejan un ajuste matemático, pero no tienen sentido en términos de causalidad subyacente.

Otra forma de seleccionar sus variables es decidir desde un punto de vista lógico cuáles son las principales 2 o 3 variables que deberían estar en el modelo. Comienzas con esos y luego verificas cuánta más información obtienes agregando una variable. Verifique el cuadrado R ajustado, la consistencia del coeficiente de regresión en relación con la regresión original y, obviamente, pruebe todos los modelos con período de espera. Muy pronto, será evidente cuál es tu mejor modelo.

Sympa
fuente
44
Radj2
Muchos de los problemas que describe son comunes al modelo de regresión lineal en general. No estoy seguro de que tales problemas técnicos sean razones para descartar todos los métodos de regresión gradual y la regresión lineal en general. No estoy claro por qué la regresión por pasos "se selecciona en función de una variable aleatoria, lo que causa muchos problemas". Stepwise encuentra el mejor ajuste, como lo hace cualquier modelo. Lo que creo que es más importante es garantizar que el ajuste matemático corresponda a la teoría o lógica subyacente del problema que está resolviendo.
Sympa
3
R2Radj2Fp
Gung, no estoy seguro de que estemos hablando de lo mismo. Estoy usando la regresión por pasos de dos maneras. Uno es manual, construyes un modelo usando el mejor regresor. Y se agrega utilizando la segunda mejor variable que explica mejor el error del primer modelo. Y continúa hasta que tu puntaje AIC se deteriore. El segundo método que he usado es usar el software XLStat que automatiza el proceso y fue desarrollado por Thierry Fahmy y su equipo. Tiene que entiendo un doctorado en matemáticas junto con otros en su equipo. Y no estoy seguro de que hubieran caído en todas las trampas que mencionaste.
Sympa
2
Gaetan, creo que lo que @gung está tratando de decir es que los métodos paso a paso pueden causar un daño severo al marco de regresión estadística inicial (función de pérdida, valores p, etc.). Vea la respuesta y los comentarios de Frank Harrell aquí . La regresión penalizada, como se discutió en varios hilos, podría ser una buena alternativa. "(...) software que automatiza el proceso" me recuerda a R fortune(224): no hay trolls aquí, solo quiero resaltar que no necesariamente necesitas confiar en lo que el software te ofrece (u ofrece) automáticamente como una opción.
chl
0

Si sus variables explicativas son datos de recuento, y no es irrazonable suponer que están distribuidas normalmente, puede transformarlas en variables normales estándar con el scalecomando R. Hacer esto puede reducir la colinealidad. Pero eso probablemente no resolverá todo el problema.

En el blog de Florian Jaeger se encuentra un lote útil de comandos R para analizar y tratar la colinealidad , que incluye:

z. <- function (x) scale(x)
r. <- function (formula, ...) rstandard(lm(formula, ...))

La z.función convierte un vector en una variante normal estándar. La r.función devuelve residuos estandarizados para hacer retroceder un predictor contra otro. Puede usar esto para dividir efectivamente la desviación del modelo en diferentes tramos para que solo algunas variables tengan acceso al tramo más antiguo, luego el siguiente tramo se ofrecerá a las variables residuales. (Perdón por mi terminología casera) Entonces, si un modelo del formulario

Y ~ A + B

sufre de multicolinealidad, entonces puede ejecutar cualquiera de

Y ~ A + r.(B)
Y ~ r.(A) + B

de modo que solo los residuos de la variable "tramo junior" (cuando se retroceden frente a la variable "tramo senior") se ajustan al modelo. De esta manera, está protegido de la multicolinealidad, pero tiene un conjunto de parámetros más complicado para informar.


fuente