Tengo datos de densidad de peces que estoy tratando de comparar entre varias técnicas de recolección diferentes, los datos tienen muchos ceros y el histograma parece vaugley apropiado para una distribución de Poisson, excepto que, como densidades, no son datos enteros. Soy relativamente nuevo en GLM y pasé los últimos días buscando en línea cómo saber qué distribución usar, pero no pude encontrar recursos que ayuden a tomar esta decisión. Un histograma de muestra de los datos tiene el siguiente aspecto:
No tengo idea de cómo decidir sobre la familia apropiada para usar para el GLM. Si alguien tiene algún consejo o me puede dar un recurso que debería consultar, sería fantástico.
Respuestas:
Las familias GLM comprenden una función de enlace, así como una relación media-varianza. Para Poisson GLM, la función de enlace es un registro, y la relación media-varianza es la identidad. A pesar de las advertencias que le da la mayoría del software estadístico, es completamente razonable modelar una relación en datos continuos en la que la relación entre dos variables es lineal en la escala logarítmica, y la varianza aumenta de acuerdo con la media.
Esto, esencialmente, es la razón para elegir el enlace y la función de varianza en un GLM. Por supuesto, hay varios supuestos detrás de este proceso. Puede hacer un modelo más robusto utilizando quasilikelihood (ver
?quasipoisson
) o errores estándar robustos (ver paquetesandwich
ogee
).Ha notado correctamente que muchas densidades son 0 en sus datos. Bajo los modelos de probabilidad de Poisson, es apropiado muestrear ocasionalmente ceros en los datos, por lo que no es necesariamente el caso de que estas observaciones conduzcan a un sesgo en sus estimaciones de tasas.
Para inspeccionar las suposiciones detrás de los GLM, generalmente es útil observar los residuos de Pearson. Estos explican la relación de varianza media y muestran al estadístico si observaciones particulares, tales como estos 0, están afectando notoriamente la estimación y los resultados.
fuente
El modelo lineal generalizado se define en términos de predictor lineal
entonces el modelo se puede definir en términos probabilísticos como
Si su resultado es continuo e ilimitado, entonces la opción más "predeterminada" es la distribución gaussiana (también conocida como distribución normal ), es decir, la regresión lineal estándar (a menos que que utilice otra función de enlace, entonces el enlace de identidad predeterminado).
Si se trata de un resultado continuo no negativo , entonces podría considerar la distribución Gamma o la distribución gaussiana inversa .
Si su resultado es discreto , o más precisamente, está lidiando con conteos (cuántas veces sucede algo en un intervalo de tiempo dado), entonces la opción más común de la distribución para comenzar es la distribución de Poisson . El problema con la distribución de Poisson es que es bastante inflexible en el hecho de que supone que la media es igual a la varianza, si no se cumple esta suposición, puede considerar el uso de la familia cuasi-Poisson o distribución binomial negativa (ver también Definición de dispersión parámetro para la familia cuasipoisson ).
Si su resultado es binario (ceros y unos), proporciones de "éxitos" y "fracasos" (valores entre 0 y 1), o sus recuentos , puede usar la distribución Binomial , es decir, el modelo de regresión logística . Si hay más de dos categorías, usaría la distribución multinomial en regresión multinomial .
Por otro lado, en la práctica, si está interesado en construir un modelo predictivo, puede estar interesado en probar algunas distribuciones diferentes, y al final aprender que uno de ellos le brinda resultados más precisos que los otros, incluso si no es el más "apropiado" en términos de consideraciones teóricas (por ejemplo, en teoría debería usar Poisson, pero en la práctica la regresión lineal estándar funciona mejor para sus datos).
fuente
Esta es una pregunta algo amplia, usted está preguntando cómo hacer modelos, y hay libros completos dedicados a eso. Por ejemplo, cuando se trata con datos de conteo, considere lo siguiente:
Además de elegir una distribución, debe elegir una función de enlace. Con los datos de recuento, puede probar la distribución binomial poisson o negativa y la función de enlace de registro. Aquí se da una razón para el enlace de registro: Bondad de ajuste y qué modelo elegir regresión lineal o Poisson Si sus parches tienen áreas muy diferentes, tal vez debería incluir el logaritmo de área como compensación, para contar el modelo por unidad de área y no absoluto cuenta. Para obtener una explicación del desplazamiento en la regresión de datos de recuento, consulte ¿ Cuándo usar un desplazamiento en una regresión de Poisson?
Esta respuesta se publicó originalmente en otra pregunta, que se fusionó con esta. Si bien la respuesta es general, comentó aspectos específicos de un conjunto de datos y un problema que ya no hay en la pregunta. La pregunta original se puede encontrar en el siguiente enlace: Familia en GLM: ¿cómo elegir la correcta?
fuente