El diagnóstico de colinealidad es problemático solo cuando se incluye el término de interacción

26

He realizado una regresión en los condados de EE. UU. Y estoy buscando colinealidad en mis variables 'independientes'. Los diagnósticos de regresión de Belsley, Kuh y Welsch sugieren mirar el índice de condición y las proporciones de descomposición de la varianza:

library(perturb)
## colldiag(, scale=TRUE) for model with interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09
1    1.000 0.000       0.000     0.000   0.000    0.001             0.002        0.003        0.002       0.002      0.001         0.000            
2    3.130 0.000       0.000     0.000   0.000    0.002             0.053        0.011        0.148       0.231      0.000         0.000            
3    3.305 0.000       0.000     0.000   0.000    0.000             0.095        0.072        0.351       0.003      0.000         0.000            
4    3.839 0.000       0.000     0.000   0.001    0.000             0.143        0.002        0.105       0.280      0.009         0.000            
5    5.547 0.000       0.002     0.000   0.000    0.050             0.093        0.592        0.084       0.005      0.002         0.000            
6    7.981 0.000       0.005     0.006   0.001    0.150             0.560        0.256        0.002       0.040      0.026         0.001            
7   11.170 0.000       0.009     0.003   0.000    0.046             0.000        0.018        0.003       0.250      0.272         0.035            
8   12.766 0.000       0.050     0.029   0.015    0.309             0.023        0.043        0.220       0.094      0.005         0.002            
9   18.800 0.009       0.017     0.003   0.209    0.001             0.002        0.001        0.047       0.006      0.430         0.041            
10  40.827 0.134       0.159     0.163   0.555    0.283             0.015        0.001        0.035       0.008      0.186         0.238            
11  76.709 0.855       0.759     0.796   0.219    0.157             0.013        0.002        0.004       0.080      0.069         0.683            

## colldiag(, scale=TRUE) for model without interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct
1    1.000 0.000       0.001     0.001   0.000    0.001             0.003        0.004        0.003       0.003      0.001        
2    2.988 0.000       0.000     0.001   0.000    0.002             0.030        0.003        0.216       0.253      0.000        
3    3.128 0.000       0.000     0.002   0.000    0.000             0.112        0.076        0.294       0.027      0.000        
4    3.630 0.000       0.002     0.001   0.001    0.000             0.160        0.003        0.105       0.248      0.009        
5    5.234 0.000       0.008     0.002   0.000    0.053             0.087        0.594        0.086       0.004      0.001        
6    7.556 0.000       0.024     0.039   0.001    0.143             0.557        0.275        0.002       0.025      0.035        
7   11.898 0.000       0.278     0.080   0.017    0.371             0.026        0.023        0.147       0.005      0.038        
8   13.242 0.000       0.001     0.343   0.006    0.000             0.000        0.017        0.129       0.328      0.553        
9   21.558 0.010       0.540     0.332   0.355    0.037             0.000        0.003        0.003       0.020      0.083        
10  50.506 0.989       0.148     0.199   0.620    0.393             0.026        0.004        0.016       0.087      0.279        

?HH::vif sugiere que los VIF> 5 son problemáticos:

library(HH)
## vif() for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         8.378646         16.329881          1.653584          2.744314          1.885095          1.471123          1.436229          1.789454 
    elderly09_pct inc09_10k:unins09 
         1.547234         11.590162 

## vif() for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.859426          2.378138          1.628817          2.716702          1.882828          1.471102          1.404482          1.772352 
    elderly09_pct 
         1.545867 

Mientras que el Diagnóstico de regresión de John Fox sugiere mirar la raíz cuadrada del VIF:

library(car)
## sqrt(vif) for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         2.894589          4.041025          1.285917          1.656597          1.372987          1.212898          1.198428          1.337705 
    elderly09_pct inc09_10k:unins09 
         1.243879          3.404433 
## sqrt(vif) for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.363608          1.542121          1.276251          1.648242          1.372162          1.212890          1.185108          1.331297 
    elderly09_pct 
         1.243329 

En los primeros dos casos (donde se sugiere un límite claro), el modelo es problemático solo cuando se incluye el término de interacción.

El modelo con el término de interacción ha sido hasta este momento mi especificación preferida.

Tengo dos preguntas dada esta peculiaridad de los datos:

  1. ¿Un término de interacción siempre empeora la colinealidad de los datos?
  2. Dado que las dos variables sin el término de interacción no están por encima del umbral, estoy bien usando el modelo con el término de interacción. Específicamente, la razón por la que creo que esto podría estar bien es que estoy usando el método de King, Tomz y Wittenberg (2000) para interpretar los coeficientes (modelo binomial negativo), donde generalmente mantengo los otros coeficientes en la media, y luego interpretar qué sucede con las predicciones de mi variable dependiente cuando me muevo inc09_10ky me muevo de forma unins09independiente y conjunta
Ari B. Friedman
fuente

Respuestas:

31

Sí, este suele ser el caso con interacciones no centradas. Un vistazo rápido a lo que sucede con la correlación de dos variables independientes y su "interacción"

set.seed(12345)
a = rnorm(10000,20,2)
b = rnorm(10000,10,2)
cor(a,b)
cor(a,a*b)

> cor(a,b)
[1] 0.01564907
> cor(a,a*b)
[1] 0.4608877

Y luego, cuando los centres:

c = a - 20
d = b - 10
cor(c,d)
cor(c,c*d)

> cor(c,d)
[1] 0.01564907
> cor(c,c*d)
[1] 0.001908758

X, X2, ...

Entonces puedes darle una oportunidad a tu pareja.


En cuanto a por qué el centrado ayuda, pero volvamos a la definición de covarianza

Cov(X,XY)=mi[(X-mi(X))(XY-mi(XY))]=mi[(X-μX)(XY-μXy)]=mi[X2Y-XμXy-XYμX+μXμXy]=mi[X2Y]-mi[X]μXy-mi[XY]μX+μXμXy

Incluso dada la independencia de X e Y

=mi[X2]mi[Y]-μXμXμy-μXμyμX+μXμXμy=(σX2+μX2)μy-μX2μy=σX2μy

XY


XXYYXXYY

Afín
fuente
Interesante, gracias. ¿Tiene una explicación o cita de por qué es importante el centrado?
Ari B. Friedman
Creo que tal como está esta respuesta no merece toda la recompensa, pero me gustaría darle una media recompensa. No estoy seguro de que eso suceda a menos que tenga un segundo voto positivo: - /.
Ari B. Friedman
1
@ AriB.Friedman, no tienes (exactamente) la opción de dar la mitad de la recompensa. Puede no otorgará la recompensa (aunque todavía habrá perdido el representante de cualquier manera) y este post probable que se se adjudicará la mitad de la recompensa de forma automática (véase la sección correspondiente de la página de ayuda ). Sin embargo, ¿por qué esta respuesta no merece la recompensa? Affine está exactamente aquí (+1).
gung - Restablece a Monica
@gung Estaba buscando preedición. Definitivamente lo merece ahora. Gracias @Affine! En cuanto a la parte de media recompensa, entiendo que una >=respuesta +2 obtiene una mitad de recompensa si la recompensa no se otorga manualmente.
Ari B. Friedman
@ AriB.Friedman, es cierto, pero antes de comentar (y votar, y alguien más lo hizo también), no tenía más de 2 votos a favor.
gung - Restablece a Monica
0

He encontrado útiles las siguientes publicaciones sobre este tema:

Robinson y Schumacker (2009): efectos de interacción: centrado, factor de inflación de varianza y problemas de interpretación

"Los efectos de la escala predictiva sobre los coeficientes de ecuaciones de regresión (soluciones centradas versus no centradas y efectos de interacción de orden superior (interacciones de 3 vías; categórica por efectos continuos) han sido cuidadosamente cubiertos por Aiken y West (1991). Su ejemplo ilustra esa considerable multicolinealidad se introduce en una ecuación de regresión con un término de interacción cuando las variables no están centradas '.

Afshartous y Preston (2011): resultados clave de modelos de interacción con centrado

'Las motivaciones para emplear el centrado variable incluyen una mejor interpretación de los coeficientes y una inestabilidad numérica reducida para la estimación asociada con la multicolinealidad'.

Obviamente, Aiken y West (1991) también cubren este tema, pero no tengo su libro.

Palmadita
fuente