Estoy trabajando con un gran conjunto de datos (confidencial, por lo que no puedo compartir demasiado),
Es posible crear un pequeño conjunto de datos que tenga algunas de las características generales de los datos reales sin los nombres de las variables ni ninguno de los valores reales.
y llegué a la conclusión de que sería necesaria una regresión binomial negativa. Nunca antes había hecho una regresión glm, y no puedo encontrar ninguna información clara sobre cuáles son los supuestos. ¿Son lo mismo para MLR?
¡Claramente no! Ya sabe que está asumiendo que la respuesta es binomial condicionalmente negativa, no condicionalmente normal. ( Algunos supuestos son compartidos. Independencia, por ejemplo).
Permítanme hablar sobre los GLM más generalmente primero.
Los GLM incluyen regresión múltiple pero se generalizan de varias maneras:
1) la distribución condicional de la respuesta (variable dependiente) es de la familia exponencial , que incluye las distribuciones de Poisson, binomial, gamma, normal y muchas otras.
2) la respuesta media está relacionada con los predictores (variables independientes) a través de una función de enlace . Cada familia de distribuciones tiene una función de enlace canónico asociada ; por ejemplo, en el caso de Poisson, el enlace canónico es el registro . Los enlaces canónicos son casi siempre los predeterminados, pero en la mayoría de los programas generalmente tiene varias opciones dentro de cada opción de distribución. Para el binomio, el enlace canónico es el logit (el predictor lineal es modelar , las probabilidades de registro de un éxito o un "1") y para el Gamma el canónico link es el inverso, pero en ambos casos a menudo se usan otras funciones de enlace.Iniciar sesión( p1 - p)
Entonces, si su respuesta fue y sus predictores fueron y , con una regresión de Poisson con el enlace de registro que podría tener para su descripción de cómo se relaciona la media de con las 's:YX1X2YX
E ( Yyo) = μyo
Iniciar sesiónμyo= ηyo ( se llama 'predictor lineal', y aquí la función de enlace es , el símbolo se usa a menudo para representar la función de enlace)ηIniciar sesiónsol
ηyo= β0 0+ β1X1 i+ β2X2 i
3) la varianza de la respuesta no es constante, sino que funciona a través de una función de varianza (una función de la media, posiblemente multiplicada por un parámetro de escala). Por ejemplo, la varianza de un Poisson es igual a la media, mientras que para una gamma es proporcional al cuadrado de la media. (Las distribuciones cuasi permiten cierto grado de desacoplamiento de la función de varianza de la distribución supuesta)
-
Entonces, ¿qué supuestos son comunes con lo que recuerdas de MLR?
La independencia sigue ahí.
La homocedasticidad ya no se supone; la varianza es explícitamente una función de la media y, por lo tanto, en general varía con los predictores (por lo tanto, aunque el modelo generalmente es heterocedasticidad, la heterocedasticidad toma una forma específica).
Linealidad: el modelo sigue siendo lineal en los parámetros (es decir, el predictor lineal es ), pero la respuesta esperada no está relacionada linealmente con ellos (¡a menos que utilice la función de enlace de identidad!).Xβ
La distribución de la respuesta es sustancialmente más general.
La interpretación de la salida es en muchos aspectos bastante similar; todavía puede ver los coeficientes estimados divididos por sus errores estándar, por ejemplo, e interpretarlos de manera similar (son asintóticamente normales, una prueba z de Wald), pero la gente parece llamarlos coeficientes t, incluso cuando no hay una teoría que establezca ellos -distribuido en general).t
Las comparaciones entre modelos anidados (a través de 'anova-table' como configuraciones) son un poco diferentes, pero similares (que implican pruebas de chi-cuadrado asintóticas). Si se siente cómodo con AIC y BIC, estos pueden calcularse.
Generalmente se utilizan tipos similares de pantallas de diagnóstico, pero puede ser más difícil de interpretar.
Gran parte de su intuición de regresión lineal múltiple se trasladará si tiene en cuenta las diferencias.
Aquí hay un ejemplo de algo que puede hacer con un glm que realmente no puede hacer con una regresión lineal (de hecho, la mayoría de las personas usaría una regresión no lineal para esto, pero GLM es más fácil y más agradable para ello) en el caso normal: es normal , modelado en función de :Yx
E(Y)=exp(η)=exp(Xβ)=exp(β0+β1x) (es decir, un enlace de registro)
Var(Y)=σ2
Es decir, un ajuste de mínimos cuadrados de una relación exponencial entre y .xYx
¿Puedo transformar las variables de la misma manera (ya he descubierto que transformar la variable dependiente es una mala llamada ya que debe ser un número natural)?
Usted (generalmente) no quiere transformar la respuesta (DV). A veces es posible que desee transformar los predictores (IV) para lograr la linealidad del predictor lineal.
Ya determiné que la distribución binomial negativa ayudaría con la sobredispersión en mis datos (la varianza es alrededor de 2000, la media es 48).
Sí, puede lidiar con la sobredispersión. Pero tenga cuidado de no confundir la dispersión condicional con la dispersión incondicional .
Otro enfoque común, aunque un poco más torpe y algo menos satisfactorio para mí, es la regresión cuasi-Poisson (regresión de Poisson sobredispersada).
Con el binomio negativo, está en la familia exponencial si especifica uno de sus parámetros en particular (la forma en que generalmente se vuelve a parametrizar para GLMS al menos). Algunos paquetes se ajustarán si especifica el parámetro, otros ajustarán la estimación ML de ese parámetro (por ejemplo, a través de la probabilidad de perfil) alrededor de una rutina GLM, automatizando el proceso. Algunos lo restringirán a un conjunto más pequeño de distribuciones; no dice qué software podría usar, por lo que es difícil decir mucho más allí.
Creo que, por lo general, el enlace logarítmico tiende a usarse con regresión binomial negativa.
Hay una serie de documentos de nivel introductorio (que se encuentran fácilmente a través de Google) que conducen a través de algunos análisis de datos GLM básicos de Poisson y luego análisis GLM binomial negativo de datos, pero es posible que prefiera mirar un libro sobre GLM y tal vez hacer una pequeña regresión de Poisson primero solo para acostumbrarme a eso.
Algunas referencias que he encontrado útiles para analizar datos con la distribución binomial negativa específicamente (incluidas las suposiciones de listado) y GLM / GLMM generalmente son:
Bates, DM, B. Machler, B. Bolker y S. Walker. 2015. Ajuste de modelos lineales de efectos mixtos con lme4. J. Stat. Software 67: 1-48.
Bolker, BM, ME Brooks, CJ Clark, SW Geange, JR Poulsen, MHH Stevens y J. White. Modelos lineales mixtos generalizados: una guía práctica para la ecología y la evolución. Tendencias en ecología y evolución 127-135.
Zeileis A., C. Keleiber C y S. Jackman 2008. Modelos de regresión para datos de recuento en RJ Stat. Software. 27: 1-25
Zuur AF, EN Iene, N. Walker, AA Saveliev y GM Smith. 2009. Modelos de efectos mixtos y extensiones en ecología con R. Springer, NY, EE. UU.
fuente