Al jugar con un modelo de regresión multivariante, noté que había un pequeño pero notable efecto de multicolinealidad, medido por factores de inflación de varianza, dentro de las categorías de una variable categórica (después de excluir la categoría de referencia, por supuesto).
Por ejemplo, supongamos que tenemos un conjunto de datos con la variable continua yy una variable categórica nominal x que tiene k posibles valores mutuamente excluyentes. Codificamos esos valores posibles como 0/1 variables ficticias . Luego ejecutamos un modelo de regresión . Las puntuaciones VIF para las variables ficticias resultan ser distintas de cero. De hecho, a medida que aumenta el número de categorías, aumentan los VIF. Centrar las variables ficticias no parece cambiar los VIF.
La explicación intuitiva parece ser que la condición mutuamente excluyente de las categorías dentro de la variable categórica causa esta ligera multicolinealidad. ¿Es este un hallazgo trivial o es un problema a considerar al construir modelos de regresión con variables categóricas?