Tratar con regresores correlacionados

23

En una regresión lineal múltiple con regresores altamente correlacionados, ¿cuál es la mejor estrategia para usar? ¿Es un enfoque legítimo agregar el producto de todos los regresores correlacionados?

Ηλίας
fuente
1
Lamento ver que la respuesta de @ Suncoolsu fue eliminada. Este y los comentarios que siguieron aclararon la diferencia entre multicolinealidad y mal condicionamiento. Además, en un comentario, Suncoolsu señaló cómo la estandarización preliminar puede ayudar con la regresión polinómica. Si volviera a aparecer, lo votaría ;-).
whuber
@ Ηλίας: es probable que el producto sea inestable en muchas aplicaciones. Puede estar plagado de muchos ceros si los regresores individuales tienen algunos ceros; es probable que su valor absoluto tenga un fuerte sesgo positivo, dando lugar a algunos puntos de alto apalancamiento; podría amplificar los datos periféricos, especialmente los valores atípicos simultáneos, lo que aumentaría aún más su influencia. También puede ser bastante difícil de interpretar, especialmente si los regresores ya son expresiones de las variables originales (como registros o raíces).
whuber

Respuestas:

13

Los componentes principales tienen mucho sentido ... matemáticamente. Sin embargo, desconfiaría de simplemente usar algún truco matemático en este caso y esperar no tener que pensar en mi problema.

Recomiendo pensar un poco sobre qué tipo de predictores tengo, cuál es la variable independiente, por qué mis predictores están correlacionados, si algunos de mis predictores realmente están midiendo la misma realidad subyacente (si es así, si puedo trabajar con un medición individual y cuál de mis predictores sería el mejor para esto), para qué estoy haciendo el análisis: si no estoy interesado en la inferencia, solo en la predicción, podría dejar las cosas tal como están, en el futuro Los valores predictores son similares a los anteriores.

S. Kolassa - Restablece a Monica
fuente
44
Completamente de acuerdo, +1. Pero la caracterización de PCA como un "truco matemático" injustamente lo menosprecia, en mi humilde opinión. Si está de acuerdo (no estoy seguro de que lo haga) de que sumar o promediar grupos de regresores, como sugiere Srikant, sería aceptable, entonces PCA debería ser igual de aceptable y generalmente mejora el ajuste. Además, los componentes principales pueden proporcionar información sobre qué grupos de predictores están correlacionados y cómo se correlacionan: esa es una excelente herramienta para el pensamiento que usted defiende.
whuber
2
@whuber, veo y estoy de acuerdo con tu punto, y no quiero menospreciar a PCA, así que definitivamente +1. Solo quería señalar que el uso ciego de PCA sin mirar y pensar en el problema subyacente (que nadie aquí defiende) me dejaría con un mal presentimiento ...
S. Kolassa - Restablece a Monica el
11

Puede utilizar los componentes principales o la regresión de cresta para tratar este problema. Por otro lado, si tiene dos variables que están lo suficientemente correlacionadas como para causar problemas con la estimación de parámetros, entonces casi con certeza podría descartar cualquiera de las dos sin perder mucho en términos de predicción, porque las dos variables llevan la misma información . Por supuesto, eso solo funciona cuando el problema se debe a dos independientes altamente correlacionados. Cuando el problema involucra más de dos variables que son juntas casi colineales (cualquiera de las cuales puede tener solo correlaciones moderadas), probablemente necesitará uno de los otros métodos.

Brett
fuente
2
(+1) Ahora, el problema es que el OP no indicó cuántas variables ingresan al modelo, porque en caso de que sean numerosas, sería mejor hacer tanto la contracción como la selección de variables, por ejemplo, mediante el criterio de Elasticnet (que es una combinación de las penas Lasso y Ridge).
chl
3

Aquí hay otro pensamiento inspirado en la respuesta de Stephan :

Si algunos de sus regresores correlacionados están significativamente relacionados (por ejemplo, son diferentes medidas de inteligencia, es decir, verbal, matemática, etc.), puede crear una sola variable que mida la misma variable utilizando una de las siguientes técnicas:

  • Suma los regresores (apropiado si los regresores son componentes de un todo, por ejemplo, IQ verbal + IQ matemático = IQ general)

  • Promedio de los regresores (apropiado si los regresores miden la misma construcción subyacente, por ejemplo, tamaño del zapato izquierdo, tamaño del zapato derecho para medir la longitud de los pies)

  • Análisis factorial (para tener en cuenta los errores en las mediciones y extraer un factor latente)

Luego puede descartar todos los regresores correlacionados y reemplazarlos con la única variable que emerge del análisis anterior.

Comunidad
fuente
1
Esto tiene sentido si todos los regresores se miden en la misma escala. En psicología, varias subescalas a menudo se miden en diferentes escalas (y aún están correlacionadas), por lo que una suma ponderada o promedio (que es realmente lo mismo aquí) sería apropiado. Y, por supuesto, uno podría ver que PCA proporciona solo este tipo de ponderación calculando ejes de máxima varianza.
S. Kolassa - Restablece a Monica el
2

Estaba a punto de decir lo mismo que Stephan Kolassa arriba (así que he votado su respuesta). Solo agregaría que a veces la multicolinealidad puede deberse al uso de variables extensivas que están altamente correlacionadas con alguna medida de tamaño, y las cosas pueden mejorarse usando variables intensivas, es decir, dividiendo todo entre alguna medida de tamaño. Por ejemplo, si sus unidades son países, puede dividir por población, área o PNB, según el contexto.

Ah, y para responder a la segunda parte de la pregunta original: no se me ocurre ninguna situación en la que agregar el producto de todos los regresores correlacionados sería una buena idea. ¿Cómo ayudaría? ¿Qué significaría?

una parada
fuente
Mi idea inicial era agregar tener en cuenta la interacción por pares de los regresores
Ηλίας
A menudo es una buena idea tener en cuenta la interacción por pares. Pero no todos los demás: ¡debes pensar a través de lo que tiene sentido!
kjetil b halvorsen
1

No soy un experto en esto, pero mi primer pensamiento sería ejecutar un análisis de componentes principales en las variables predictoras, luego usar los componentes principales resultantes para predecir su variable dependiente.

Mike Lawrence
fuente
kk
pags
@chl Buen punto. Pero dado que los componentes principales son combinaciones lineales, es sencillo (aunque a veces un poco complicado) componer el modelo de regresión ajustado (= una transformación lineal) con la proyección sobre los componentes (= otra transformación lineal) para obtener un modelo lineal interpretable involucrando todas las variables originales. Esto es algo parecido a las técnicas de ortogonalización. Tenga en cuenta también que las últimas propuestas de Srikant (suman o promedian los regresores) se aproximan esencialmente al vector propio principal pero inducen dificultades explicativas similares.
whuber
@whuber Sí, estoy de acuerdo con sus dos puntos. Utilicé ampliamente la regresión PLS y la CCA, por lo que en este caso tenemos que lidiar con combinaciones lineales en ambos lados (st. Co-varianza máxima o criterios de correlación); con una gran cantidad de predictores, interpretar los vectores canónicos es doloroso, por lo que simplemente observamos las variables que más contribuyen. Ahora, puedo imaginar que no hay tantos predictores para que todos sus argumentos (@Stephan, @Mike) tengan sentido.
chl
-1

X

Xyojstunanortereunarreyozmire=Xyoj-X.j¯sj

Esto no es un remedio, pero definitivamente es un paso en la dirección correcta.

suncoolsu
fuente
8
Las transformaciones lineales (como estas) nunca cambian los coeficientes de correlación. El objetivo de la estandarización es mejorar el acondicionamiento de la matriz normal.
whuber
1
La estandarización de las variables no afectará las correlaciones entre las variables independientes y no "reducirá el efecto de la correlación" de ninguna manera que pueda pensar con respecto a este problema.
Brett
2
@Brett, un ejemplo típico donde la estandarización ayuda es la regresión polinómica . Siempre se recomienda estandarizar los regresores. La estandarización no cambia la matriz de correlación, pero hace que la matriz var cov (que ahora es la matriz correl) se comporte bien (llamada condicionamiento por @whuber que señala el número de condición de la matriz, en mi humilde opinión).
suncoolsu
Convenido. El centrado es útil cuando se ingresan términos de orden superior, como términos polinómicos o de interacción. Ese no parece ser el caso aquí y de otra manera no ayudará con el problema de los predictores correlacionados.
Brett
Lo eliminé porque no quería confundir a las personas con una respuesta incorrecta. Probablemente los moderadores lo mencionaron nuevamente.
suncoolsu