Tengo un conjunto de datos que contiene 365 observaciones de tres variables pm
, a saber , temp
y rain
. Ahora quiero verificar el comportamiento de pm
en respuesta a los cambios en otras dos variables. Mis variables son:
pm10
= Respuesta (dependiente)temp
= predictor (independiente)rain
= predictor (independiente)
La siguiente es la matriz de correlación para mis datos:
> cor(air.pollution)
pm temp rainy
pm 1.00000000 -0.03745229 -0.15264258
temp -0.03745229 1.00000000 0.04406743
rainy -0.15264258 0.04406743 1.00000000
El problema es que cuando estaba estudiando la construcción de modelos de regresión, se escribió que el método aditivo es comenzar con la variable que está más relacionada con la variable de respuesta. En mi conjunto de datos rain
está altamente correlacionado con pm
(en comparación con temp
), pero al mismo tiempo es una variable ficticia (lluvia = 1, sin lluvia = 0), por lo que ahora tengo una pista desde dónde debo comenzar. He adjuntado dos imágenes con la pregunta: El primero es un diagrama de dispersión de los datos, y la segunda imagen es un diagrama de dispersión de pm10
frente rain
, yo también soy incapaz de interpretar diagrama de dispersión de pm10
frente rain
. ¿Alguien puede ayudarme a comenzar?
fuente
Respuestas:
Muchas personas creen que debe usar alguna estrategia, como comenzar con la variable más altamente asociada y luego agregar variables adicionales a su vez hasta que una no sea significativa. Sin embargo, no hay lógica que obligue a este enfoque. Además, este es un tipo de estrategia de búsqueda / selección de variables 'codiciosas' (cf., mi respuesta aquí: Algoritmos para la selección automática de modelos ). No tiene que hacer esto , y realmente, no debería. Si quieres saber la relación entre
pm
,temp
yrain
, solo ajusta un modelo de regresión múltiple con las tres variables. Aún deberá evaluar el modelo para determinar si es razonable y se cumplen los supuestos, pero eso es todo. Si desea probar alguna hipótesis a priori, puede hacerlo con el modelo. Si desea evaluar la precisión predictiva fuera de la muestra del modelo, puede hacerlo con validación cruzada.No necesita preocuparse realmente por la multicolinealidad tampoco. La correlación entre
temp
yrain
aparece como0.044
en su matriz de correlación. Esa es una correlación muy baja y no debería causar ningún problema.fuente
Si bien esto no aborda directamente su conjunto de datos ya reunidos, otra cosa que podría intentar la próxima vez que recopile datos como este es evitar registrar la "lluvia" como un binario. Sus datos probablemente serían más informativos si hubiera medido la tasa de lluvia (cm / hora), lo que le daría una variable distribuida continuamente (hasta su precisión de medición) desde 0 ... max_rainfall.
Esto le permitiría correlacionar no solo "está lloviendo" con las otras variables, sino también "cuánto está lloviendo".
fuente