El fenómeno de 'sobredispersión' en un GLM surge cada vez que usamos un modelo que restringe la varianza de la variable de respuesta, y los datos exhiben una mayor varianza de la que permite la restricción del modelo. Esto ocurre comúnmente cuando se modelan datos de conteo utilizando un Poisson GLM, y se puede diagnosticar mediante pruebas bien conocidas. Si las pruebas muestran que existe evidencia estadísticamente significativa de sobredispersión, entonces generalmente generalizamos el modelo mediante el uso de una familia más amplia de distribuciones que liberan el parámetro de varianza de la restricción que ocurre bajo el modelo original. En el caso de un GLM de Poisson, es común generalizar a un GLM negativo-binomial o cuasi-Poisson.
Esta situación está preñada de una objeción obvia. ¿Por qué comenzar con un Poisson GLM? Se puede comenzar directamente con las formas de distribución más amplias, que tienen un parámetro de varianza (relativamente) libre, y permiten que el parámetro de varianza se ajuste a los datos, ignorando completamente las pruebas de sobredispersión. En otras situaciones, cuando hacemos análisis de datos, casi siempre usamos formas de distribución que permiten la libertad de al menos los primeros dos momentos, entonces, ¿por qué hacer una excepción aquí?
Mi pregunta: ¿Hay alguna buena razón para comenzar con una distribución que corrija la varianza (por ejemplo, la distribución de Poisson) y luego realizar una prueba de sobredispersión? ¿Cómo se compara este procedimiento con omitir este ejercicio por completo y pasar directamente a los modelos más generales (p. Ej., Binomio negativo, cuasi-Poisson, etc.)? En otras palabras, ¿por qué no usar siempre una distribución con un parámetro de varianza libre?
fuente
Respuestas:
En principio, estoy de acuerdo en que el 99% de las veces, es mejor usar el modelo más flexible. Dicho esto, aquí hay dos argumentos y medio sobre por qué podría no hacerlo.
(1) Menos flexible significa estimaciones más eficientes. Dado que los parámetros de varianza tienden a ser menos estables que los parámetros medios, su suposición de relación media-varianza fija puede estabilizar más los errores estándar.
(2) Verificación del modelo. He trabajado con físicos que creen que las distribuciones de Poisson pueden describir varias medidas debido a la física teórica. Si rechazamos la hipótesis de que media = varianza, tenemos evidencia contra la hipótesis de distribución de Poisson. Como se señaló en un comentario de @GordonSmyth, si tiene razones para creer que una medición dada debe seguir una distribución de Poisson, si tiene evidencia de una dispersión excesiva, tiene evidencia de que le faltan factores importantes.
fuente
Aunque esta es mi propia pregunta, también voy a publicar mis propios dos centavos como respuesta, de modo que agreguemos al número de perspectivas sobre esta pregunta. El problema aquí es si es razonable o no ajustar inicialmente una distribución de un parámetro a los datos. Cuando utiliza una distribución de un parámetro (como el GLM de Poisson o un GLM binomial con parámetro de prueba fijo), la varianza no es un parámetro libre y, en cambio, está limitada a ser una función de la media. Esto significa que no es aconsejable ajustar una distribución de un parámetro a los datos en cualquier situación en la que no esté absolutamente seguro de que la variación siga la estructura de esa distribución.
Ajustar las distribuciones de un parámetro a los datos es casi siempre una mala idea: los datos a menudo son más confusos de lo que indican los modelos propuestos, e incluso cuando existen razones teóricas para creer que puede obtener un modelo de un parámetro en particular, a menudo sucede que los datos en realidad provienen de una mezcla de esa distribución de un parámetro, con un rango de valores de parámetros. Esto suele ser equivalente a un modelo más amplio, como una distribución de dos parámetros que permite una mayor libertad para la varianza. Como se discute a continuación, esto es cierto para el Poisson GLM en el caso de los datos de conteo.
Como se indicó en la pregunta, en la mayoría de las aplicaciones de estadística, es una práctica estándar utilizar formas de distribución que al menos permitan que los dos primeros momentos varíen libremente. Esto garantiza que el modelo ajustado permita que los datos dicten la media y la varianza inferidas, en lugar de que el modelo las limite artificialmente. Tener este segundo parámetro solo pierde un grado de libertad en el modelo, lo cual es una pequeña pérdida en comparación con el beneficio de permitir que se estimen las variaciones a partir de los datos. Por supuesto, se puede ampliar este razonamiento y agregar un tercer parámetro para permitir el ajuste de la asimetría, un cuarto para permitir el ajuste de la curtosis, etc.
Con algunas excepciones extremadamente menores, un Poisson GLM es un mal modelo: en mi experiencia, ajustar una distribución de Poisson para contar datos es casi siempre una mala idea. Para los datos de conteo es extremadamente común que la varianza en los datos esté 'sobredispersada' en relación con la distribución de Poisson. Incluso en situaciones donde la teoría apunta a una distribución de Poisson, a menudo el mejor modelo es una mezcla de distribuciones de Poisson, donde la varianza se convierte en un parámetro libre. De hecho, en el caso de los datos de conteo, la distribución binomial negativa es una mezcla de Poisson con una distribución gamma para el parámetro de velocidad, por lo tanto, incluso cuando hay razones teóricas para pensar que los recuentos llegan de acuerdo con el proceso de una distribución de Poisson, a menudo es el caso de que hay una 'dispersión excesiva' y la distribución binomial negativa se ajusta mucho mejor.
La práctica de ajustar un GLM de Poisson para contar datos y luego hacer una prueba estadística para verificar la 'sobredispersión' es un anacronismo, y casi nunca es una buena práctica. En otras formas de análisis estadístico, no comenzamos con una distribución de dos parámetros, elegimos arbitrariamente una restricción de varianza y luego probamos esta restricción para tratar de eliminar un parámetro de la distribución. Al hacer las cosas de esta manera, en realidad creamos un procedimiento híbrido incómodo, que consiste en una prueba de hipótesis inicial utilizada para la selección del modelo, y luego el modelo real (ya sea Poisson o una distribución más amplia). Se ha demostrado en muchos contextos que este tipo de práctica de crear modelos híbridos a partir de una prueba de selección de modelo inicial conduce a modelos generales malos.
Una situación análoga, donde se ha utilizado un método híbrido similar, es en las pruebas T de diferencia de medias. Solía ser el caso de que los cursos de estadística recomendarían primero usar la prueba de Levene (o incluso algunas "reglas generales" mucho más desagradables) para verificar la igualdad de las variaciones entre dos poblaciones, y luego si los datos "pasaron" esta prueba, usted use la prueba T de Student que supone una varianza igual, y si los datos "fallaron" la prueba, entonces usaría la prueba T de Welch. Este es realmente un mal procedimiento (ver, por ejemplo, aquí y aquí) Es mucho mejor usar la última prueba, que no asume la varianza, en lugar de crear una prueba compuesta incómoda que atasca una prueba de hipótesis preliminar y luego la usa para elegir el modelo.
Para los datos de recuento, generalmente obtendrá buenos resultados iniciales al ajustar un modelo de dos parámetros, como un modelo binomial negativo o cuasi-Poisson. (Tenga en cuenta que este último no es una distribución real, pero aún así proporciona un modelo razonable de dos parámetros.) Si se necesita alguna generalización adicional, generalmente es la adición de inflación cero, donde hay un número excesivo de ceros en los datos Restringir a un Poisson GLM es una elección de modelo artificial y sin sentido, y esto no mejora mucho al probar la dispersión excesiva.
Bien, ahora aquí están las excepciones menores: las únicas excepciones reales a las anteriores son dos situaciones:
(1) Tiene razones teóricas a priori extremadamente fuertes para creer que se cumplen los supuestos para la distribución de un parámetro, y parte del análisis es probar este modelo teórico contra los datos; o
(2) Por alguna otra razón (extraña), el propósito de su análisis es realizar una prueba de hipótesis sobre la varianza de los datos, por lo que realmente desea restringir esta varianza a esta restricción hipotética y luego probar esta hipótesis.
Estas situaciones son muy raras. Tienden a surgir solo cuando existe un fuerte conocimiento teórico a priori sobre el mecanismo de generación de datos, y el propósito del análisis es probar esta teoría subyacente. Este puede ser el caso en una gama extremadamente limitada de aplicaciones donde los datos se generan en condiciones estrictamente controladas (por ejemplo, en física).
fuente