¿Las pruebas de sobredispersión en GLM son realmente * útiles *?

El fenómeno de 'sobredispersión' en un GLM surge cada vez que usamos un modelo que restringe la varianza de la variable de respuesta, y los datos exhiben una mayor varianza de la que permite la restricción del modelo. Esto ocurre comúnmente cuando se modelan datos de conteo utilizando un Poisson GLM, y se puede diagnosticar mediante pruebas bien conocidas. Si las pruebas muestran que existe evidencia estadísticamente significativa de sobredispersión, entonces generalmente generalizamos el modelo mediante el uso de una familia más amplia de distribuciones que liberan el parámetro de varianza de la restricción que ocurre bajo el modelo original. En el caso de un GLM de Poisson, es común generalizar a un GLM negativo-binomial o cuasi-Poisson.

Esta situación está preñada de una objeción obvia. ¿Por qué comenzar con un Poisson GLM? Se puede comenzar directamente con las formas de distribución más amplias, que tienen un parámetro de varianza (relativamente) libre, y permiten que el parámetro de varianza se ajuste a los datos, ignorando completamente las pruebas de sobredispersión. En otras situaciones, cuando hacemos análisis de datos, casi siempre usamos formas de distribución que permiten la libertad de al menos los primeros dos momentos, entonces, ¿por qué hacer una excepción aquí?

Mi pregunta: ¿Hay alguna buena razón para comenzar con una distribución que corrija la varianza (por ejemplo, la distribución de Poisson) y luego realizar una prueba de sobredispersión? ¿Cómo se compara este procedimiento con omitir este ejercicio por completo y pasar directamente a los modelos más generales (p. Ej., Binomio negativo, cuasi-Poisson, etc.)? En otras palabras, ¿por qué no usar siempre una distribución con un parámetro de varianza libre?

generalized-linear-model poisson-regression overdispersion quasi-likelihood Reinstalar a Mónica
fuente

Supongo que si el subyacente es realmente Poisson, entonces su resultado glm no exhibirá esas propiedades bien conocidas como las estimaciones que también son eficientes en el sentido de que la varianza de las estimaciones es mayor de lo necesario, si es correcto modelo había sido utilizado. Es probable que las estimaciones ni siquiera sean imparciales o MLE. Pero esa es solo mi intuición y podría estar equivocado. Me gustaría saber cuál es una buena respuesta.

mlofton

En mi experiencia, la prueba de sobredispersión es (paradójicamente) principalmente útil cuando se sabe (por un conocimiento del proceso de generación de datos) que la sobredispersión no puede estar presente. En este contexto, las pruebas de dispersión excesiva le indican si el modelo lineal está captando toda la señal en los datos. Si no es así, se debe considerar agregar más covariables al modelo. Si es así, entonces más covariables no pueden ayudar.

Gordon Smyth

@ GordonSmyth: Creo que es una buena respuesta. Si no quieres convertir eso en su propia respuesta, la doblaré en la mía.

Cliff AB

@GordonSmyth que llega a una cosa que siempre me ha molestado sobre el análisis de la desviación como una prueba de bondad de ajuste: las covariables faltantes se confunden con una sobredispersión. Sugiere algunos problemas con respecto a cómo se enseña a menudo el material. Enseño una clase en categórico y los libros de texto no hacen este punto con mucha fuerza.

chico

@guy Sí, es cierto, y las personas tienden a suponer que la desviación residual siempre se distribuye de forma cuadrática, lo que a menudo no es así. Intentamos hacer un mejor trabajo de estos puntos en nuestro reciente libro de texto doi.org/10.1007/978-1-4419-0118-7 pero es difícil cubrir todo dentro de los límites de espacio.

Gordon Smyth

Respuestas:

En principio, estoy de acuerdo en que el 99% de las veces, es mejor usar el modelo más flexible. Dicho esto, aquí hay dos argumentos y medio sobre por qué podría no hacerlo.

(1) Menos flexible significa estimaciones más eficientes. Dado que los parámetros de varianza tienden a ser menos estables que los parámetros medios, su suposición de relación media-varianza fija puede estabilizar más los errores estándar.

(2) Verificación del modelo. He trabajado con físicos que creen que las distribuciones de Poisson pueden describir varias medidas debido a la física teórica. Si rechazamos la hipótesis de que media = varianza, tenemos evidencia contra la hipótesis de distribución de Poisson. Como se señaló en un comentario de @GordonSmyth, si tiene razones para creer que una medición dada debe seguir una distribución de Poisson, si tiene evidencia de una dispersión excesiva, tiene evidencia de que le faltan factores importantes.

$Var[y] = \alpha E[y]$ $\alpha \neq 1$

Acantilado
fuente

En 2.5: Por supuesto, hay binomio negativo y GLMM con efectos aleatorios que no tienen esa limitación.

Björn

@ Björn: por eso es solo medio argumento; solo se aplica a los métodos de cuasi-probabilidad. Por lo que sé, no hay métodos basados verosimilitud para bajo dispersión, a pesar de que esto puede ser analizada con un modelo de cuasi-verosimilitud.

Cliff AB

También en 2.5: entiendo que no hay una familia de dispersión exponencial que satisfaga la relación deseada. Es decir, el cuasi puntaje no corresponde a un puntaje genuino. Eso no significa que no haya familias de distribuciones para datos de conteo que satisfagan la relación deseada; debería haber muchas de esas familias.

chico

@CliffAB para datos de recuento poco dispersos existe el modelo Conway-Maxwell-Poisson: en.m.wikipedia.org/wiki/… que se implementa en un par de paquetes R.

Dimitris Rizopoulos

Si el modelo se va a utilizar para la predicción, entonces otra razón para preferir el modelo más simple es que, si todo lo demás es igual, el modelo más simple tendrá mejores cualidades predictivas. Estoy pensando en AIC, BIC, así como PAC en general.

meh

Aunque esta es mi propia pregunta, también voy a publicar mis propios dos centavos como respuesta, de modo que agreguemos al número de perspectivas sobre esta pregunta. El problema aquí es si es razonable o no ajustar inicialmente una distribución de un parámetro a los datos. Cuando utiliza una distribución de un parámetro (como el GLM de Poisson o un GLM binomial con parámetro de prueba fijo), la varianza no es un parámetro libre y, en cambio, está limitada a ser una función de la media. Esto significa que no es aconsejable ajustar una distribución de un parámetro a los datos en cualquier situación en la que no esté absolutamente seguro de que la variación siga la estructura de esa distribución.

Ajustar las distribuciones de un parámetro a los datos es casi siempre una mala idea: los datos a menudo son más confusos de lo que indican los modelos propuestos, e incluso cuando existen razones teóricas para creer que puede obtener un modelo de un parámetro en particular, a menudo sucede que los datos en realidad provienen de una mezcla de esa distribución de un parámetro, con un rango de valores de parámetros. Esto suele ser equivalente a un modelo más amplio, como una distribución de dos parámetros que permite una mayor libertad para la varianza. Como se discute a continuación, esto es cierto para el Poisson GLM en el caso de los datos de conteo.

Como se indicó en la pregunta, en la mayoría de las aplicaciones de estadística, es una práctica estándar utilizar formas de distribución que al menos permitan que los dos primeros momentos varíen libremente. Esto garantiza que el modelo ajustado permita que los datos dicten la media y la varianza inferidas, en lugar de que el modelo las limite artificialmente. Tener este segundo parámetro solo pierde un grado de libertad en el modelo, lo cual es una pequeña pérdida en comparación con el beneficio de permitir que se estimen las variaciones a partir de los datos. Por supuesto, se puede ampliar este razonamiento y agregar un tercer parámetro para permitir el ajuste de la asimetría, un cuarto para permitir el ajuste de la curtosis, etc.

Con algunas excepciones extremadamente menores, un Poisson GLM es un mal modelo: en mi experiencia, ajustar una distribución de Poisson para contar datos es casi siempre una mala idea. Para los datos de conteo es extremadamente común que la varianza en los datos esté 'sobredispersada' en relación con la distribución de Poisson. Incluso en situaciones donde la teoría apunta a una distribución de Poisson, a menudo el mejor modelo es una mezcla de distribuciones de Poisson, donde la varianza se convierte en un parámetro libre. De hecho, en el caso de los datos de conteo, la distribución binomial negativa es una mezcla de Poisson con una distribución gamma para el parámetro de velocidad, por lo tanto, incluso cuando hay razones teóricas para pensar que los recuentos llegan de acuerdo con el proceso de una distribución de Poisson, a menudo es el caso de que hay una 'dispersión excesiva' y la distribución binomial negativa se ajusta mucho mejor.

La práctica de ajustar un GLM de Poisson para contar datos y luego hacer una prueba estadística para verificar la 'sobredispersión' es un anacronismo, y casi nunca es una buena práctica. En otras formas de análisis estadístico, no comenzamos con una distribución de dos parámetros, elegimos arbitrariamente una restricción de varianza y luego probamos esta restricción para tratar de eliminar un parámetro de la distribución. Al hacer las cosas de esta manera, en realidad creamos un procedimiento híbrido incómodo, que consiste en una prueba de hipótesis inicial utilizada para la selección del modelo, y luego el modelo real (ya sea Poisson o una distribución más amplia). Se ha demostrado en muchos contextos que este tipo de práctica de crear modelos híbridos a partir de una prueba de selección de modelo inicial conduce a modelos generales malos.

Una situación análoga, donde se ha utilizado un método híbrido similar, es en las pruebas T de diferencia de medias. Solía ser el caso de que los cursos de estadística recomendarían primero usar la prueba de Levene (o incluso algunas "reglas generales" mucho más desagradables) para verificar la igualdad de las variaciones entre dos poblaciones, y luego si los datos "pasaron" esta prueba, usted use la prueba T de Student que supone una varianza igual, y si los datos "fallaron" la prueba, entonces usaría la prueba T de Welch. Este es realmente un mal procedimiento (ver, por ejemplo, aquí y aquí) Es mucho mejor usar la última prueba, que no asume la varianza, en lugar de crear una prueba compuesta incómoda que atasca una prueba de hipótesis preliminar y luego la usa para elegir el modelo.

Para los datos de recuento, generalmente obtendrá buenos resultados iniciales al ajustar un modelo de dos parámetros, como un modelo binomial negativo o cuasi-Poisson. (Tenga en cuenta que este último no es una distribución real, pero aún así proporciona un modelo razonable de dos parámetros.) Si se necesita alguna generalización adicional, generalmente es la adición de inflación cero, donde hay un número excesivo de ceros en los datos Restringir a un Poisson GLM es una elección de modelo artificial y sin sentido, y esto no mejora mucho al probar la dispersión excesiva.

Bien, ahora aquí están las excepciones menores: las únicas excepciones reales a las anteriores son dos situaciones:

(1) Tiene razones teóricas a priori extremadamente fuertes para creer que se cumplen los supuestos para la distribución de un parámetro, y parte del análisis es probar este modelo teórico contra los datos; o

(2) Por alguna otra razón (extraña), el propósito de su análisis es realizar una prueba de hipótesis sobre la varianza de los datos, por lo que realmente desea restringir esta varianza a esta restricción hipotética y luego probar esta hipótesis.

Estas situaciones son muy raras. Tienden a surgir solo cuando existe un fuerte conocimiento teórico a priori sobre el mecanismo de generación de datos, y el propósito del análisis es probar esta teoría subyacente. Este puede ser el caso en una gama extremadamente limitada de aplicaciones donde los datos se generan en condiciones estrictamente controladas (por ejemplo, en física).

Reinstalar a Mónica
fuente