Uso de predictores circulares en regresión lineal.

19

Estoy tratando de ajustar un modelo utilizando datos de viento (0, 359) y hora del día (0, 23), pero me preocupa que encajen mal en una regresión lineal porque no son parámetros lineales. Me gustaría transformarlos usando Python. He visto alguna mención al cálculo de una media vectorial tomando el pecado y el cos de los grados, al menos en el caso del viento, pero no mucho.

¿Existe una biblioteca de Python o un método relevante que pueda ser útil?

compguy24
fuente
1
Gracias por hacer esto como una pregunta. Tenga en cuenta que pedir código o bibliotecas está fuera de tema (la mayor parte de su pregunta es ciertamente sobre tema), por lo que ese aspecto puede o no estar cubierto por las respuestas aquí.
gung - Restablece a Monica
¿Cuál es la variable de respuesta (resultado, variable dependiente) aquí? ¿La dirección del viento y la hora del día son predictores?
Nick Cox
@ NickCox Sí, tanto la dirección del viento como la hora del día son predictores. El resultado es un valor entero que representa la concentración de partículas (contaminación del aire). También hay otros predictores, como la temperatura, la humedad, etc., pero creo que no es necesario transformarlos.
compguy24
1
Me he tomado la libertad de editar el título. El título anterior "Distribución lineal de grados alrededor de un círculo" no capturó la pregunta en mi opinión.
Nick Cox

Respuestas:

24

La dirección del viento (aquí medida en grados, presumiblemente como una dirección de la brújula en sentido horario desde el norte) es una variable circular. La prueba es que el comienzo convencional de la escala es el mismo que el final, es decir, . Cuando se trata como un predictor, probablemente se asigne mejor al seno y al coseno. Cualquiera sea su software, es probable que los ángulos se midan en radianes, por lo que la conversión será un equivalente de0=360

sin(π direction/180),cos(π direction/180)

dado que radianes . Del mismo modo, la hora del día medida en horas desde la medianoche se puede asignar a seno y coseno utilizando2π=360

sin(π time/12),cos(π time/12)

o

sin(π(time+0.5)/12),cos(π(hora+0,5)/ /12)

dependiendo exactamente de cómo se grabó el tiempo o se debe interpretar.

Algunas veces la naturaleza o la sociedad son complacientes y la dependencia de la variable circular toma la forma de que una dirección sea óptima para la respuesta y la dirección opuesta (la mitad del círculo de distancia) sea pesimista. En ese caso, un solo término seno y coseno puede ser suficiente; para patrones más complicados puede que necesite otros términos. Para obtener más detalles , aquí se puede encontrar un tutorial sobre esta técnica de regresión trigonométrica circular, Fourier, periódica , con referencias adicionales. La buena noticia es que una vez que ha creado los términos seno y coseno, son solo predictores adicionales en su regresión.

Existe una gran literatura sobre estadísticas circulares, en sí misma vista como parte de estadísticas direccionales. Curiosamente, esta técnica a menudo no se menciona, ya que el enfoque en esa literatura es comúnmente en variables de respuesta circular. Resumir las variables circulares por sus medias vectoriales es un método descriptivo estándar, pero no es obligatorio ni directamente útil para la regresión.

Algunos detalles sobre la terminología La dirección del viento y la hora del día están en términos estadísticos variables, no parámetros, cualquiera sea el uso en su rama de la ciencia.

La regresión lineal se define por la linealidad en los parámetros, es decir, para un vector predicho por , es el vector de parámetros , no la matriz de predictores , lo que es más crucial. Entonces, en este caso, el hecho de que los predictores como el seno y el coseno se midan en escalas circulares y también se restrinjan a no es una barrera para su aparición en la regresión lineal.yXββX[-1,1]

Comentario incidental Para una variable de respuesta como la concentración de partículas, esperaría usar un modelo lineal generalizado con enlace logarítmico para asegurar predicciones positivas.

Nick Cox
fuente