¿Qué factor de inflación de varianza debo usar: o ?

30

Estoy tratando de interpretar la varianza factores de inflación utilizando el viffunción en el paquete R car. La función imprime un generalizado y también . Según el archivo de ayuda , este último valorVIFGVIF1/ /(2df)

Para ajustar la dimensión del elipsoide de confianza, la función también imprime GVIF ^ [1 / (2 * df)] donde df son los grados de libertad asociados con el término.

No entiendo el significado de esta explicación en el archivo de ayuda, por lo que no estoy seguro de si debería usar o . Para mi modelo, estos dos valores son muy diferentes (el máximo es ~ ; el máximo es ~ ).GVIFGVIF1/ /(2df)GVIF60 60GVIF1/ /(2df)3

¿Podría alguien explicarme cuál debería usar y qué significa ajustar la dimensión del elipsoide de confianza?

arrendajo
fuente

Respuestas:

25

Georges Monette y yo presentamos el GVIF en el documento "Diagnóstico de colinealidad generalizada", JASA 87: 178-183, 1992 ( enlace ). Como explicamos, el GVIF representa la relación al cuadrado de hipervolúmenes del elipsoide de confianza conjunta para un subconjunto de coeficientes al elipsoide "utópico" que se obtendría si los regresores en este subconjunto no estuvieran correlacionados con los regresores en el subconjunto complementario. En el caso de un coeficiente único, esto se especializa en el VIF habitual. Para hacer que los GVIF sean comparables en todas las dimensiones, sugerimos usar GVIF ^ (1 / (2 * Df)), donde Df es el número de coeficientes en el subconjunto. En efecto, esto reduce el GVIF a una medida lineal, y para el VIF, donde Df = 1, es proporcional a la inflación debido a la colinealidad en el intervalo de confianza para el coeficiente.

John Fox
fuente
3
¡Bienvenido a nuestro sitio! Nos honraría si registrara su cuenta y viniera a visitarnos de vez en cuando. Una pequeña nota de mantenimiento: no tiene que firmar sus publicaciones, su identificador, con un enlace a su página de usuario, se agrega automáticamente a cada respuesta que da.
gung - Restablece a Monica
24

Me encontré exactamente con la misma pregunta e intenté abrirme camino. Vea mi respuesta detallada a continuación.

En primer lugar, encontré 4 opciones que producen valores VIF similares en R:

corvifcomando del paquete AED,

vifcomando del paquete del automóvil,

vifcomando del paquete rms,

vifcomando del paquete DAAG.

El uso de estos comandos en un conjunto de predictores que no incluyen factores / variables categóricas o términos polinomiales es sencillo. Los tres comandos producen la misma salida numérica aunque el corvifcomando del paquete AED etiqueta los resultados como GVIF.

Sin embargo, normalmente, GVIF solo entra en juego para factores y variables polinómicas. Las variables que requieren más de 1 coeficiente y, por lo tanto, más de 1 grado de libertad, generalmente se evalúan utilizando el GVIF. Para términos de un coeficiente, VIF es igual a GVIF.

Por lo tanto, puede aplicar reglas generales estándar sobre si la colinealidad puede ser un problema, como un umbral de 3, 5 o 10. Sin embargo, se debe aplicar (debe) cierta precaución (ver: http://www.nkd-group.com/ghdash/mba555/PDF/VIF%20article.pdf ).

En el caso de términos de coeficientes múltiples, como por ejemplo predictores categóricos, los 4 paquetes producen diferentes resultados. Los vifcomandos de los paquetes rms y DAAG producen valores VIF, mientras que los otros dos producen valores GVIF.

Veamos primero los valores VIF de los paquetes rms y DAAG:

TNAP     ICE     RegB    RegC    RegD    RegE

1.994    2.195   3.074   3.435   2.907   2.680

TNAP e ICE son predictores continuos y Reg es una variable categórica presentada por los maniquíes RegB a RegE. En este caso, RegA es la línea de base. Todos los valores de VIF son bastante moderados y generalmente no hay nada de qué preocuparse. El problema con este resultado es que se ve afectado por la línea de base de la variable categórica. Para asegurarse de no tener un valor VIF por encima de un nivel aceptable, sería necesario rehacer este análisis para cada nivel de la variable categórica que sea la línea de base. En este caso cinco veces.

Aplicando el corvifcomando del paquete AED o el vifcomando del paquete del automóvil, se producen los valores GVIF:

     |  GVIF     | Df | GVIF^(1/2Df) |  

TNAP | 1.993964  | 1  | 1.412078     |
ICE  | 2.195035  | 1  | 1.481565     | 
Reg  | 55.511089 | 5  | 1.494301     |

El GVIF se calcula para conjuntos de regresores relacionados, como un conjunto de regresores ficticios. Para las dos variables continuas TNAP e ICE, esto es lo mismo que los valores VIF anteriores. Para la variable categórica Reg, ahora obtenemos un valor GVIF muy alto, aunque los valores VIF para los niveles individuales de la variable categórica fueron todos moderados (como se muestra arriba).

solVyoF(1/ /(2×reF))solVyoF(1/ /(2×reF))El valor de la variable categórica es una medida similar para la reducción en la precisión de la estimación de los coeficientes debido a la colinealidad (aunque no esté listo para citar, también consulte http://socserv2.socsci.mcmaster.ca/jfox/papers/linear- models-problems.pdf ).

solVyoF(1/ /(2×reF))solVyoF(1/ /(2×reF))

solVyoF(1/ /(2×reF))solVyoF(1/ /(2×reF))solVyoF2(1/ /(2×reF))<2

Jan Philipp S
fuente
Bienvenido al sitio, @ JanPhilippS. Esto parece una pregunta tan nueva como una respuesta a la pregunta del OP. Utilice solo el campo "Su respuesta" para proporcionar respuestas. Si tiene su propia pregunta, haga clic [ASK QUESTION]en la parte superior y pregúntela allí, entonces podemos ayudarlo adecuadamente. Como eres nuevo aquí, es posible que desees realizar nuestro recorrido , que contiene información para nuevos usuarios.
gung - Restablece a Monica
2
Bueno, en realidad no es una pregunta nueva. Más bien una respuesta detallada.
Jan Philipp S
1
@ JanPhilippS, gracias por los enlaces a las fuentes para leer más. Creo que su publicación parecía una respuesta de calidad que permitió reflexionar sobre el estado de las cosas.
timothy.s.lau
6

Fox y Monette (cita original para GVIF, GVIF ^ 1 / 2df) sugieren llevar GVIF a la potencia de 1 / 2df hace que el valor de GVIF sea comparable en diferentes números de parámetros. "Es análogo tomar la raíz cuadrada del factor usual de variación de inflación" (de An R and S-Plus Companion to Applied Regression de John Fox). Entonces sí, cuadrarlo y aplicar la "regla de oro" VIF habitual parece razonable.

acmw
fuente