Estoy trabajando en algún proyecto de modelado predictivo en estos días: tratando de aprender un modelo y hacer predicciones en tiempo real basadas en el modelo que aprendí sin conexión.
Comencé a usar la regresión de cresta recientemente, porque leí que la regularización puede ayudar a reducir el efecto de la multicolinealidad.
Sin embargo, leí este blog hoy. Estoy totalmente confundido ahora. Según este blog, la multicolinealidad NO daña tanto el poder predictivo de un modelo.
Entonces, al final, ¿la multicolinealidad es un problema o no?
regression
prediction
multicollinearity
ridge-regression
usuario152503
fuente
fuente
Respuestas:
Es un problema para la inferencia causal, o más bien, indica dificultades en la inferencia causal, pero no es un problema particular para la predicción / pronóstico (a menos que sea tan extremo que evite la convergencia del modelo o dé como resultado matrices singulares, y entonces no obtendrá predicciones de todos modos). Este, creo, es el significado de esa publicación de blog también. Parece que puede estar insistiendo en una respuesta de sí o no cuando la respuesta es que depende. Esto es de lo que depende, y por qué al menos se puede decir que la multicolinealidad (no perfecta) nunca es una razón para descartar una variable de un modelo; cualquier problema que la multicolinealidad indique no desaparecerá porque descartó una variable y se detuvo viendo la colinealidad.
Los predictores que están altamente correlacionados entre sí simplemente no hacen un buen trabajo para mejorar sus predicciones como lo harían si no fueran colineales, pero aún así se correlacionan por separado con la variable de resultado; ninguno de los dos está haciendo mucho más trabajo que el otro, y de todos modos lo haría solo. Tal vez están tan fuertemente relacionados entre sí porque están capturando básicamente la misma construcción subyacente, en cuyo caso ninguno está agregando mucho más por encima del otro por una buena razón, y sería imposible separarlos ontológicamente para fines predictivos. de todos modos, manipulando las unidades de observación para que tengan valores diferentes en cada una de las dos variables predictoras para que funcionen mejor como predictores. Pero eso no significa que incluirlos a ambos en su modelo tal cual es malo o incorrecto.
Cuando se trata de la inferencia causal, es un problema simplemente porque nos impide saber, al menos con confianza, cuál de los predictores colineales está haciendo la predicción y, por lo tanto, la explicación y, presumiblemente, la causa. Con suficientes observaciones, eventualmente podrá identificar los efectos separados de incluso variables altamente colineales (pero nunca perfectamente colineales). Es por eso que a Rob Franzese y UMich les gusta llamar a la multicolinealidad "micronumerosidad". Siempre hay cierta colinealidad entre los predictores. Esa es una de las razones por las que generalmente solo necesitamos muchas observaciones. A veces una cantidad imposible, para nuestras necesidades de inferencia causal. Pero el problema es la complejidad del mundo y las circunstancias desafortunadas que nos impiden observar una variedad más amplia de situaciones en las que diferentes factores varían más en relación entre sí. La multicolinealidad es el síntoma de esa falta de datos útiles, y la regresión multivariada es la cura (imperfecta). Sin embargo, muchas personas parecen pensar en la multicolinealidad como algo que están haciendo mal con su modelo, y como si fuera una razón para dudar de los hallazgos que tienen.
fuente
No es un problema para el modelado predictivo cuando lo único que le importa es el pronóstico y nada más.
Considere este modelo simple:
Tenemos regresores perfectamente colineales, y una solución OLS típica no existirá porque(XTX)−1 Tiene una singularidad.
Sin embargo, conectemos una ecuación a otra:
Entonces, claramente, podemos estimarβ^2 por métodos OLS habituales, es decir, hay una solución. ¡El único problema es que no es único!
Podemos elegir cualquierβ^z , lo que nos daría β^x=β2−αβ^x : tenemos un número infinito de pares (β^x,β^z) que corresponden a una solución única β^2 . Obviamente, cualquiera de estos pares es tan bueno como cualquier otro para predeciry^ . Además, todos estos pares son tan buenos como los únicosβ^2 coeficiente para el pronóstico .
El único problema es la inferencia. Si quieres saber comox impactos y su análisis típico de β^x coeficiente y su varianza será inútil.
fuente
La multicolinealidad generalmente no es el mejor escenario para el análisis de regresión. Nuestra vida sería mucho más fácil si todos los predictores fueran ortogonales.
Es un problema para la interpretación del modelo (tratando de entender los datos):
Imagínese si tiene que escribir un informe a su jefe sobre sus datos. Construye un modelo de multicolinealidad casi perfecto y le cuenta a su jefe sobre el modelo. Podrías decir " mi primer predictor se correlaciona positivamente con la respuesta ... Voy a decirte más por qué ... Tu jefe está contento, pero te pide que lo intentes nuevamente sin algunos puntos de datos. Tus coeficientes en tu nuevo modelo ahora es ... muy diferente , ¡el coeficiente de tu primer predictor ahora es negativo! ¡Tu jefe ya no confiará en ti! Tu modelo no es robusto.
La multicolinealidad sigue siendo un problema para el poder predictivo. Su modelo se sobreajustará y será menos probable que se generalice a datos fuera de la muestra. Afortunadamente, tuR2 no se verá afectado y sus coeficientes seguirán siendo imparciales.
fuente
Yo diría que si la correlación entre una variable y otra variable (o combinación lineal de variables) cambia entre los datos dentro y fuera de la muestra, puede comenzar a ver que la multicolinealidad afecta la precisión de la muestra fuera de la muestra. predicciones La multicolinealidad solo agrega otra suposición (correlación consistente) que debe cumplirse razonablemente para que su modelo siga funcionando bien.
fuente