Cómo comenzar a construir un modelo de regresión cuando el predictor más fuertemente asociado es binario

11

Tengo un conjunto de datos que contiene 365 observaciones de tres variables pm, a saber , tempy rain. Ahora quiero verificar el comportamiento de pmen respuesta a los cambios en otras dos variables. Mis variables son:

  • pm10 = Respuesta (dependiente)
  • temp = predictor (independiente)
  • rain = predictor (independiente)

La siguiente es la matriz de correlación para mis datos:

> cor(air.pollution)
               pm        temp       rainy
pm     1.00000000 -0.03745229 -0.15264258
temp  -0.03745229  1.00000000  0.04406743
rainy -0.15264258  0.04406743  1.00000000

El problema es que cuando estaba estudiando la construcción de modelos de regresión, se escribió que el método aditivo es comenzar con la variable que está más relacionada con la variable de respuesta. En mi conjunto de datos rainestá altamente correlacionado con pm(en comparación con temp), pero al mismo tiempo es una variable ficticia (lluvia = 1, sin lluvia = 0), por lo que ahora tengo una pista desde dónde debo comenzar. He adjuntado dos imágenes con la pregunta: El primero es un diagrama de dispersión de los datos, y la segunda imagen es un diagrama de dispersión de pm10frente rain, yo también soy incapaz de interpretar diagrama de dispersión de pm10frente rain. ¿Alguien puede ayudarme a comenzar?

este es el diagrama de dispersión de mis datos

diagrama de dispersión de pm10 vs lluvia

Syed Asif Ali Shah
fuente
3
Esta es una pregunta perfectamente viable, OMI, incluso si procede de un malentendido.
gung - Restablece a Monica
Una cosa para recordar con la regresión es que se supone que la variable dependiente es una variable aleatoria, mientras que los predictores se asumen como variables controladas experimentalmente. (Por lo tanto, tenga cuidado cuando gira algo sobre su cabeza). No parece haber una fuerte correlación positiva o negativa en su matriz, ya que ninguno de los fuera de la diagonal ? x i 1 , x i 2 , , x i p | r j k | > 0.8yixi1,xi2,,xip|rjk|>0.8
wrktsj

Respuestas:

17

Muchas personas creen que debe usar alguna estrategia, como comenzar con la variable más altamente asociada y luego agregar variables adicionales a su vez hasta que una no sea significativa. Sin embargo, no hay lógica que obligue a este enfoque. Además, este es un tipo de estrategia de búsqueda / selección de variables 'codiciosas' (cf., mi respuesta aquí: Algoritmos para la selección automática de modelos ). No tiene que hacer esto , y realmente, no debería. Si quieres saber la relación entre pm, tempyrain, solo ajusta un modelo de regresión múltiple con las tres variables. Aún deberá evaluar el modelo para determinar si es razonable y se cumplen los supuestos, pero eso es todo. Si desea probar alguna hipótesis a priori, puede hacerlo con el modelo. Si desea evaluar la precisión predictiva fuera de la muestra del modelo, puede hacerlo con validación cruzada.

No necesita preocuparse realmente por la multicolinealidad tampoco. La correlación entre tempy rainaparece como 0.044en su matriz de correlación. Esa es una correlación muy baja y no debería causar ningún problema.

gung - Restablece a Monica
fuente
1
Muchas gracias por sus amables sugerencias. soy nuevo en este sitio no saben cómo usarlo, puede usted por favor proporcionar algunas sugerencias adicionales o materiales que estudian
Syed Asif Ali Shah
1
@SyedAsifAliShah, aparte de que el inglés no parece ser su idioma nativo, no veo ningún problema con la forma en que está utilizando el sitio. Con respecto a los materiales de estudio, puede mirar esto o esto , o simplemente navegar por nuestros hilos con la etiqueta de referencias .
gung - Restablece a Monica
¿Debo probar el modelo lineal o GLM para mis datos?
Syed Asif Ali Shah
1
@SyedAsifAliShah, presumiblemente un modelo lineal está bien para sus datos.
gung - Restablece a Monica
hermano, necesito tu ayuda
Syed Asif Ali Shah
10

Si bien esto no aborda directamente su conjunto de datos ya reunidos, otra cosa que podría intentar la próxima vez que recopile datos como este es evitar registrar la "lluvia" como un binario. Sus datos probablemente serían más informativos si hubiera medido la tasa de lluvia (cm / hora), lo que le daría una variable distribuida continuamente (hasta su precisión de medición) desde 0 ... max_rainfall.

Esto le permitiría correlacionar no solo "está lloviendo" con las otras variables, sino también "cuánto está lloviendo".

JKreft
fuente
hola hermano, hice lo mismo de acuerdo a su sugerencia, reuní datos completos de lluvia y modelo de construcción
Syed Asif Ali Shah
¿Puedo pedir su correo electrónico por favor? solo quiero hacer algunas preguntas
Syed Asif Ali Shah
Si tiene preguntas adicionales sobre la configuración de su modelo, tal vez una nueva pregunta de StackExchange sea el camino a seguir. De esa manera, puede obtener comentarios de más personas, muchas de las cuales son más expertas que yo
JKreft