Considerar la multicolinealidad es importante en el análisis de regresión porque, en extremo , depende directamente de si sus coeficientes se identifican de manera única en los datos. En casos menos severos, aún puede interferir con sus estimaciones de coeficientes; Pequeños cambios en los datos utilizados para la estimación pueden causar cambios bruscos en los coeficientes estimados. Estos pueden ser problemáticos desde un punto de vista inferencial: si dos variables están altamente correlacionadas, los aumentos en una pueden compensarse con disminuciones en otra, de modo que el efecto combinado es negarse entre sí. Con más de dos variables, el efecto puede ser aún más sutil, pero si las predicciones son estables, a menudo es suficiente para las aplicaciones de aprendizaje automático.
Considere por qué nos regularizamos en un contexto de regresión: necesitamos restringir el modelo para que sea demasiado flexible. La aplicación de la cantidad correcta de regularización aumentará ligeramente el sesgo para una mayor reducción de la varianza. El ejemplo clásico de esto es agregar términos polinómicos y efectos de interacción a una regresión: en el caso degenerado, la ecuación de predicción interpolará puntos de datos, pero probablemente sea terrible cuando intente predecir los valores de puntos de datos no vistos. Reducir esos coeficientes probablemente minimizará o eliminará por completo algunos de esos coeficientes y mejorará la generalización.
Sin embargo, se podría ver que un bosque aleatorio tiene un parámetro de regularización a través del número de variables muestreadas en cada división: se obtienen mejores divisiones cuanto mayor sea mtry
(más características para elegir; algunas de ellas son mejores que otras), pero eso también hace que cada árbol esté más altamente correlacionado entre sí, mitigando un poco el efecto diversificador de estimar múltiples árboles en primer lugar. Este dilema lo obliga a uno a encontrar el equilibrio correcto, generalmente logrado mediante la validación cruzada. Es importante destacar que, y en contraste con un análisis de regresión, ninguna parte del modelo de bosque aleatorio se ve perjudicada por variables altamente colineales: incluso si dos de las variables proporcionan la misma pureza de nodo secundario, puede elegir uno sin disminuir la calidad del resultado.
Del mismo modo, para algo como un SVM, puede incluir más predictores que características porque el truco del núcleo le permite operar únicamente en el producto interno de esos vectores de características. Tener más características que observaciones sería un problema en las regresiones, pero el truco del núcleo significa que solo estimamos un coeficiente para cada ejemplar, mientras que el parámetro de regularización reduce la flexibilidad de la solución, lo cual es definitivamente algo bueno, ya que estimar parámetros paraCNNlas observaciones sin restricciones siempre producirán un modelo perfecto en los datos de prueba, y cerramos el círculo, volviendo al escenario de regresión de cresta / LASSO / elasticidad neta donde tenemos la flexibilidad del modelo restringida como un control contra un modelo demasiado optimista. Una revisión de las condiciones KKT del problema SVM revela que la solución SVM es única, por lo que no tenemos que preocuparnos por los problemas de identificación que surgieron en el caso de regresión.
Finalmente, considere el impacto real de la multicolinealidad. No cambia el poder predictivo del modelo (al menos, en los datos de entrenamiento) pero sí con nuestras estimaciones de coeficientes. En la mayoría de las aplicaciones de LD, que no se preocupan por los coeficientes propios, solo la pérdida de nuestras predicciones del modelo, por lo que, en ese sentido, verificar VIF en realidad no responde una pregunta consecuente. (Pero si un ligero cambio en los datos causa una gran fluctuación en los coeficientes [un síntoma clásico de multicolinealidad], también puede cambiar las predicciones, en cuyo caso nos importa, pero todo esto [¡esperamos!] Se caracteriza cuando realice una validación cruzada, que de todos modos forma parte del proceso de modelado). Una regresión se interpreta más fácilmente, pero la interpretación podría no ser el objetivo más importante para algunas tareas.
La razón es porque los objetivos de las "estadísticas tradicionales" son diferentes de muchas técnicas de Machine Learning.
Por "estadísticas tradicionales", supongo que se refiere a la regresión y sus variantes. En la regresión, estamos tratando de entender el impacto que tienen las variables independientes en la variable dependiente. Si existe una fuerte multicolinealidad, esto simplemente no es posible. Ningún algoritmo va a arreglar esto. Si el estudio se correlaciona con la asistencia a clase y las calificaciones, no podemos saber qué es lo que realmente está haciendo que las calificaciones suban: asistencia o estudios.
Sin embargo, en las técnicas de Machine Learning que se centran en la precisión predictiva, lo único que nos importa es cómo podemos usar un conjunto de variables para predecir otro conjunto. No nos importa el impacto que estas variables tienen entre sí.
Básicamente, el hecho de que no verifiquemos la multicolinealidad en las técnicas de Machine Learning no es una consecuencia del algoritmo, es una consecuencia del objetivo. Puede ver esto al notar que una fuerte colinealidad entre las variables no perjudica la precisión predictiva de los métodos de regresión.
fuente
Aquí parece haber una suposición subyacente de que no verificar la colinealidad es una práctica razonable o incluso la mejor. Esto parece defectuoso. Por ejemplo, la comprobación de la colinealidad perfecta en un conjunto de datos con muchos predictores revelará si dos variables son realmente lo mismo, por ejemplo, fecha de nacimiento y edad (ejemplo tomado de Dormann et al. (2013), Ecography , 36 , 1, pp 27–46 ) A veces también he visto surgir el problema de predictores perfectamente correlacionados en las competiciones de Kaggle, donde los competidores en el foro intentan eliminar posibles predictores que han sido anonimizados (es decir, la etiqueta del predictor está oculta, un problema común en las competencias de Kaggle y similares a Kaggle).
También hay una actividad en el aprendizaje automático de seleccionar predictores: la identificación de predictores altamente correlacionados puede permitirle al trabajador encontrar predictores que sean representantes de otra variable subyacente (oculta) y finalmente encontrar una variable que haga el mejor trabajo de representar la variable latente o Alternativamente, sugiera variables que pueden combinarse (por ejemplo, a través de PCA).
Por lo tanto, sugeriría que, aunque los métodos de aprendizaje automático generalmente (o al menos a menudo) han sido diseñados para ser robustos frente a predictores correlacionados, comprender el grado en que los predictores están correlacionados es a menudo un paso útil para producir un modelo robusto y preciso , y es una ayuda útil para obtener un modelo optimizado.
fuente
El problema principal con la multicolinealidad es que desordena los coeficientes (betas) de las variables independientes. Es por eso que es un problema grave cuando se estudian las relaciones entre variables, se establece la causalidad, etc.
Sin embargo, si no está interesado en comprender tanto el fenómeno, sino que se centra exclusivamente en la predicción y el pronóstico, entonces la multicolinealidad es un problema menor. O al menos eso es lo que la gente piensa al respecto.
No estoy hablando de multicolinealidad perfecta aquí, que es un problema técnico o de identificación. Técnicamente, simplemente significa que la matriz de diseño conduce a la singularidad, y la solución no está definida.
fuente
La regularización en esos aprendizaje automático estabiliza los coeficientes de regresión, por lo que al menos ese efecto de multicolinealidad domesticado. Pero lo que es más importante, si busca predicciones (que suelen ser los aprendices de máquinas), entonces el "problema" de multicolinealidad no era un problema tan grande en primer lugar. Es un problema cuando necesita estimar un coeficiente particular y no tiene la información.
Además, mi respuesta a " Cuándo selecciona LASSO los predictores correlacionados " podría serle útil.
fuente
Creo que la multicolinealidad debería verificarse en el aprendizaje automático. Este es el motivo: suponga que tiene dos características altamente correlacionadas X e Y en nuestro conjunto de datos. Esto significa que el plano de respuesta no es confiable (un pequeño cambio en los datos puede tener efectos drásticos en la orientación del plano de respuesta). Lo que implica que las predicciones del modelo para datos apuntan muy lejosdesde la línea, donde X e Y tienden a caer, no son confiables. Si usa su modelo para predicciones para tales puntos, las predicciones probablemente serán muy malas. En otras palabras, cuando tiene dos características altamente correlacionadas, como modelo, está aprendiendo un plano donde los datos en su mayoría se encuentran en una línea. Por lo tanto, es importante eliminar características altamente correlacionadas de sus datos para evitar modelos poco confiables y predicciones erróneas.
fuente