Relación lineal entre variables explicativas en regresión múltiple

10

Estaba leyendo el capítulo de regresión múltiple de Análisis de datos y gráficos usando R: un enfoque basado en ejemplos y estaba un poco confundido al descubrir que recomienda verificar las relaciones lineales entre variables explicativas (usando un diagrama de dispersión) y, en caso de que no haya n cualquier, transformándolos así que no hacen más linealmente relacionada. Aquí hay algunos extractos de esto:

6.3 Una estrategia para ajustar modelos de regresión múltiple

(...)

Examine la matriz de diagrama de dispersión que involucra todas las variables explicativas. (La inclusión de la variable dependiente es, en este punto, opcional ) . Primero busque evidencia de no linealidad en los gráficos de las variables explicativas entre sí.

(...)

Este punto identifica una estrategia de búsqueda de modelos : busque modelos en los que las relaciones de regresión entre variables explicativas sigan una forma lineal "simple" . Por lo tanto, si algunas parcelas por pares muestran evidencia de no linealidad, considere el uso de transformación (s) para dar relaciones más lineales . Si bien puede no resultar necesariamente posible, siguiendo esta estrategia, modelar adecuadamente la relación de regresión, esta es una buena estrategia, por las razones que se detallan a continuación, para seguir al comenzar la búsqueda.

(...)

Si las relaciones entre las variables explicativas son aproximadamente lineales, quizás después de la transformación, entonces es posible interpretar gráficas de variables predictoras contra la variable de respuesta con confianza.

(...)

Es posible que no sea posible encontrar transformaciones de una o más de las variables explicativas que aseguran que las relaciones (en pares) que se muestran en los paneles parecen lineales. Esto puede crear problemas tanto para la interpretación de las gráficas de diagnóstico para cualquier ecuación de regresión ajustada como para la interpretación de los coeficientes en la ecuación ajustada. Ver Cook y Weisberg (1999).

¿No debería preocuparme las relaciones lineales entre variables dependientes (debido al riesgo de multicolinealidad) en lugar de buscarlas activamente? ¿Cuáles son las ventajas de tener variables relacionadas linealmente aproximadamente?

Los autores abordan el tema de la multicolinealidad más adelante en el capítulo, pero estas recomendaciones parecen estar en desacuerdo con evitar la multicolinealidad.

RicardoC
fuente

Respuestas:

8

Hay dos puntos aquí:

  1. El pasaje recomienda transformar los IV en linealidad solo cuando hay evidencia de no linealidad. Las relaciones no lineales entre IV también pueden causar colinealidad y, más centralmente, pueden complicar otras relaciones. No estoy seguro de estar de acuerdo con el consejo del libro, pero no es tonto.

  2. Ciertamente, las relaciones lineales muy fuertes pueden ser causas de colinealidad, pero las altas correlaciones no son necesarias ni suficientes para causar colinealidad problemática. Un buen método para diagnosticar la colinealidad es el índice de condición.

EDITAR en respuesta al comentario

Los índices de condición se describen brevemente aquí como "raíz cuadrada del valor propio máximo dividido por el valor propio mínimo". Hay bastantes publicaciones aquí en CV que discuten sobre ellos y sus méritos. Los textos fundamentales sobre ellos son dos libros de David Belsley: Diagnóstico de acondicionamiento y Diagnóstico de regresión (que también tiene una nueva edición, 2005).

Peter Flom - Restablece a Monica
fuente
1
+1: buena respuesta, pero ¿puede ampliar el índice de condición? Todavía tengo que encontrar un medio satisfactorio para tratar la colinealidad en las variables explicativas candidatas.
BGreene
Gracias por la respuesta informativa. ¿Podría explicar qué otras relaciones son complicadas por la no linealidad entre expl. variables? ¿Y ahora de qué hablan los autores cuando dicen que las relaciones no lineales entre expl. Qué variables pueden causar problemas con la interpretación de los coeficientes y las gráficas de diagnóstico?
RicardoC
No puedo encontrar un ejemplo en este momento, pero lo he visto suceder. Puede parecer que hay relaciones no lineales entre Y y X
Peter Flom - Restablecer a Monica
3

Las relaciones lineales entre cada una de las variables explicativas y la variable dependiente asegurarán también relaciones lineales entre las variables explicativas. Lo contrario no es, por supuesto, cierto.

Es cierto que las transformaciones diseñadas para dar linealidad aproximada aumentarán la colinealidad. En ausencia de tales transformaciones, sin embargo, la colinealidad está oculta. Insistir en mantener la colinealidad oculta de este modo puede dar como resultado una ecuación de regresión complicada e ininterpretable, donde hay disponible una forma simple de ecuación.

Supongamos que yestá cerca de una función lineal de log(x1), en un caso donde los xrangos sobre valores que difieren en un factor de 10 o más. Entonces, si xse usa como regresor, se invocarán otras variables explicativas, si es posible, para tener en cuenta la no linealidad en la relación con x1. El resultado puede ser una relación de regresión muy complicada, con coeficientes no interpretables, en lugar de una forma simple de ecuación de regresión que captura todo el poder explicativo disponible.

Las extrañas consecuencias que pueden resultar de la imposibilidad de encontrar y trabajar con variables relacionadas linealmente están bien ilustradas en el reciente artículo que afirmó un efecto de nombre femenino de huracán en los datos sobre las muertes de 94 huracanes del Atlántico que tocaron tierra en los Estados Unidos durante 1950-2012. Ver http://www.pnas.org/content/111/24/8782.abstract . Los datos están disponibles como parte de la información complementaria. Tenga en cuenta que trabajar con log(deaths)y usar un modelo lineal de teoría normal (función de R lm()) es aproximadamente equivalente al uso de Jung et al de un modelo de regresión binomial negativa.

Si uno regresiones log(E[deaths])sobre log(NDAM), no queda nada para la variable de presión mínima, la variable de la feminidad, y las interacciones, para explicar. La variable log(NDAM), no NDAM, aparece en una matriz de diagrama de dispersión como relacionada linealmente con la variable de presión mínima. Su distribución también es mucho menos sesgada, mucho más simétrica.

Jung et al retrocedieron log(E[deaths])en NDAM(daño normalizado), más esas otras variables e interacciones. La ecuación que surgió luego se usó para contar una historia en la que la feminidad del nombre tiene un gran efecto.

Para ver cuán extraño es usarlo NDAMcomo una variable explicativa en una regresión donde la variable de resultado es log(E[deaths]), trama log(deaths+0.5)o en log(deaths+1)contra NDAM. Luego repita la trama con log(NDAM)en lugar de NDAM. El contraste es aún más sorprendente si Katrina y Audrey, que Jung et al omitieron como valores atípicos, se incluyen en la trama. Al insistir en usar NDAMcomo variable explicativa, en lugar de hacerlo log(NDAM), Jung et al dejaron pasar la oportunidad de encontrar una forma muy simple de relación de regresión.

NB esa E[deaths]es la cantidad de muertes predichas por el modelo.

En los datos de Jung et al, las transformaciones necesarias se pueden identificar a partir de una matriz de diagrama de dispersión de todas las variables. Pruebe quizás la función R spm()en la última versión del paquete de automóvil para R, con transform=TRUEy (con deathsuna variable) family="yjPower". O experimente con las transformaciones sugeridas por una matriz de diagrama de dispersión inicial. En general, el consejo preferido puede ser buscar primero variables explicativas que satisfagan el requisito de predictores lineales, luego atender a la variable de resultado, tal vez utilizando la función de automóvil invTranPlot().

Consulte, además de "Análisis de datos y gráficos usando R" al que hizo referencia el interrogador:

  • Weisberg: Regresión lineal aplicada. 4a ed., Wiley 2014, pp.185-203.
  • Fox y Weisberg: un compañero R para la regresión aplicada. 2nd edn, Sage, 2011, pp.127-148.
John Maindonald
fuente
1

Encuentro todo este pasaje bastante críptico si no francamente cuestionable. Idealmente, desea que sus variables independientes estén lo menos correlacionadas posible entre sí para proporcionar información incremental y adicional al modelo al estimar la variable dependiente. Plantea la cuestión de la multicolinealidad a través de altas correlaciones entre variables independientes, y tiene toda la razón en plantear esa cuestión en esta circunstancia.

Es más crítico examinar el diagrama de dispersión y la relación lineal relacionada entre cada una de las variables independientes y la variable dependiente, pero no entre las variables independientes. Al observar tales diagramas de dispersión (independientes del eje X y dependientes del eje Y) en ese momento, puede haber oportunidades para transformar la variable independiente para observar un mejor ajuste ya sea a través de un registro, un exponente o una forma polinómica.

Sympa
fuente
1
En su segunda oración: si las variables independientes no estuvieran totalmente correlacionadas, entonces gran parte de la justificación de la regresión sería discutible. Cada relación bivariada de un predictor con Y se mostraría igual que la relación cuando se controlaran todos los demás predictores. En ese caso, ¿por qué controlar?
rolando2