Me doy cuenta de que esta puede ser una pregunta potencialmente amplia, pero me preguntaba si hay suposiciones generalizables que indiquen el uso de un GAM (modelo aditivo generalizado) sobre un GLM (modelo lineal generalizado).
Recientemente, alguien me dijo que los GAM solo deberían usarse cuando supongo que la estructura de datos es "aditiva", es decir, espero que las adiciones de x predigan y. Otra persona señaló que un GAM realiza un tipo diferente de análisis de regresión que un GLM, y que se prefiere un GLM cuando se puede suponer linealidad.
En el pasado, he estado usando un GAM para datos ecológicos, por ejemplo:
- series de tiempo continuas
- cuando los datos no tenían una forma lineal
- Tenía múltiples x para predecir mi y que pensé que tenía una interacción no lineal que podía visualizar usando "gráficos de superficie" junto con una prueba estadística
Obviamente no entiendo muy bien qué hace un GAM diferente a un GLM. Creo que es una prueba estadística válida (y veo un aumento en el uso de GAM, al menos en revistas ecológicas), pero necesito saber mejor cuándo se indica su uso en otros análisis de regresión.
fuente
Respuestas:
La principal diferencia en mi opinión es que, si bien las formas "clásicas" de modelos lineales o lineales generalizados asumen una forma lineal fija o alguna otra forma paramétrica de la relación entre la variable dependiente y las covariables, GAM no asume a priori ninguna forma específica de esto. relación, y se puede utilizar para revelar y estimar los efectos no lineales de la covariable en la variable dependiente. Más detalladamente, mientras que en los modelos lineales (generalizados) el predictor lineal es una suma ponderada de lasnorte covariables, ∑nortei = 1βyoXyo , en GAM este término se reemplaza por una suma de función suave, por ejemplo, ∑nortei = 1∑qj = 1βyosj( xyo) , dondes1( ⋅ ) , ... , sq( ⋅ ) son funciones de base suave (p. ej. splines cúbicas) yq Es la dimensión base. Al combinar las funciones básicas, los GAM pueden representar un gran número de relaciones funcionales (para hacerlo, se basan en el supuesto de que la relación verdadera es probable que sea fluida, en lugar de ondulante). Son esencialmente una extensión de GLM, sin embargo, están diseñados de una manera que los hace particularmente útiles para descubrir efectos no lineales de covariables numéricas, y para hacerlo de manera "automática" (del artículo original de Hastie y Tibshirani, tienen 'el ventaja de ser completamente automático, es decir, no se necesita trabajo "detective" por parte del estadístico ' ).
fuente
mgcv
hace muchas cosas con las que no puede hacerglm
, pero que también podría haberse hecho en ese marco ...mgcv
)?Destacaría que los GAM son mucho más flexibles que los GLM y, por lo tanto, necesitan más cuidado en su uso. Con mayor poder viene una mayor responsabilidad.
Mencionas su uso en ecología, que también he notado. Estuve en Costa Rica y vi algún tipo de estudio en una selva tropical donde algunos estudiantes graduados habían arrojado algunos datos a un GAM y aceptaron a sus alisadores complejos y locos porque el software lo dijo. Fue bastante deprimente, excepto por el hecho humorístico / admirable de que incluían rigurosamente una nota al pie de página que documentaba el hecho de que habían usado un GAM y los suavizadores de alto orden que resultaron.
No tiene que comprender exactamente cómo funcionan los GAM para usarlos, pero realmente necesita pensar en sus datos, el problema en cuestión, la selección automatizada de parámetros de su software, como órdenes más suaves, sus elecciones (qué suavizadores especifica, interacciones, si se justifica un suavizador, etc.) y la plausibilidad de sus resultados.
Haz muchas parcelas y mira tus curvas suaves. ¿Se vuelven locos en áreas con poca información? ¿Qué sucede cuando especifica un suavizador de bajo orden o elimina el suavizado por completo? ¿Es un grado 7 más suave y realista para esa variable? ¿Tienes suficientes datos? ¿Es de alta calidad o ruidoso?
Me gustan los GAMS y creo que son poco apreciados para la exploración de datos. Son simplemente súper flexibles y si te dejas llevar a la ciencia sin rigor, te llevarán más lejos en el desierto estadístico que los modelos más simples como GLM.
fuente
mgcv
maneja mis datos. Intento ser parsimonioso con mis parámetros, y compruebo qué tan bien los valores predichos coinciden con mis datos. Sus comentarios son un buen recordatorio para ser un poco más riguroso, ¡y tal vez finalmente obtener el libro de Simon Woods!No tengo reputación de simplemente agregar un comentario. Estoy totalmente de acuerdo con el comentario de Wayne: con mayor poder viene una mayor responsabilidad . Los GAM pueden ser muy flexibles y, a menudo, obtenemos / vemos suavizadores de complejos locos . Luego, recomiendo encarecidamente a los investigadores que restrinjan los grados de libertad (número de nudos) de las funciones suaves y que prueben diferentes estructuras de modelo (interacciones / no interacciones, etc.).
Los GAM pueden considerarse entre enfoques basados en modelos (aunque el borde es confuso, incluiría GLM en ese grupo) y enfoques basados en datos (por ejemplo, redes neuronales artificiales o bosques aleatorios que asumen efectos de variables no lineales que interactúan completamente). De acuerdo, no estoy totalmente de acuerdo con Hastie y Tibshirani porque los GAM todavía necesitan algo de trabajo de detectives (espero que nadie me mate por decir eso).
Desde una perspectiva ecológica, recomendaría usar la estafa del paquete R para evitar estos suavizadores variables complejos poco confiables . Fue desarrollado por Natalya Pya y Simon Wood y permite restringir las curvas suaves a las formas deseadas (por ejemplo, unimodal o monotónico), incluso para las interacciones bidireccionales. Creo que GLM se convierte en una alternativa menor después de restringir la forma de las funciones suaves, pero esta es solo mi opinión personal.
Pya, N., Wood, SN, 2015. Modelos aditivos con restricciones de forma. Stat. Comput 25 (3), 543–559. 10.1007 / s11222-013-9448-7
fuente