Enlace de registro vs raíz cuadrada para datos de Poisson en R

8

Actualmente estoy trabajando para modelar muertes por SIDA a lo largo del tiempo usando un GLM en R. Sé que hay dos opciones posibles para la función de enlace para datos de Poisson, log y raíz cuadrada.

Sé que la raíz cuadrada incluso resolvería los problemas de variabilidad, mientras que el registro es necesario para enderezar la curva. Pero, ¿cómo puedo probar qué enlace es mejor para los datos?

Ellie
fuente

Respuestas:

6

Está confundiendo el efecto de una transformación de datos con el uso de una función de enlace en un GLM.

Si realiza una transformación logarítmica de la respuesta, "enderezará la relación" si mi(YEl |X) es de la forma Exp(una+siX). Del mismo modo, si toma la raíz cuadrada de la respuesta, hará que la varianza sea casi constante, si la varianza es proporcional a la media (como lo es con un Poisson, donde es igual a la media).

Sin embargo, en un GLM, la función de enlace no se utiliza para transformar los datos.

El GLM en sí mismo toma en cuenta el hecho de que la varianza del Poisson aumenta con la media; no necesita hacer nada al respecto (siempre que la suposición de Poisson sea adecuada).

Lo único que quedaba para explicar la relación entre el predictor y la respuesta. La función de enlace especifica la forma de la relación entre la media condicional de la respuesta y el predictor.

El enlace sqrt se usa principalmente con el propósito de comparar con un análisis anterior en el que se utilizó una transformación de raíz cuadrada para aplicar la regresión de mínimos cuadrados. Al usar el enlace de raíz cuadrada, puede ajustar un modelo de la misma forma funcional pero con una estimación completa de ML de los parámetros.

Si estaba considerando usar el registro debido al hecho de que linealizó la relación, ese es definitivamente el enlace que debe usar. (Generalmente, el enlace de registro también es más fácil de interpretar).

Si realmente desea entretener ambas funciones de enlace y elegir entre ellas, puede comparar las AIC; o podría comparar las desviaciones (hay otras opciones, por supuesto, pero ambas se proporcionan en el resultado resumido y miden el "ajuste"; lo que sea que mire, debería llevar a la misma conclusión). Sin embargo, a menos que haya alguna indicación clara de que el enlace de registro es inadecuado o alguna otra razón para entretener el enlace de raíz cuadrada, simplemente haría el enlace de registro.

Tenga en cuenta que si utiliza los datos para elegir entre las funciones de enlace, las pruebas de hipótesis posteriores de los coeficientes estimados a partir de los mismos puntos de datos (entre otras cosas) ya no tendrán sus propiedades nominales (los errores estándar serán demasiado pequeños, los intervalos de confianza demasiado estrechos , los valores p no significan lo mismo ...)

(Por cierto, esas no son las dos únicas opciones de función de enlace para un Poisson en R, ya que también existe el enlace de identidad ... y eso sin contar lo que puede hacer si se mueve a un ajuste cuasi-Poisson)


Una advertencia: si está modelando una variable a lo largo del tiempo, debe tener en cuenta que (a) es probable que exista dependencia del tiempo en sus recuentos, de una manera que invalidaría los supuestos de independencia de GLM (por ejemplo, sus errores estándar podrían fácilmente estar equivocado); y (b) la noción de regresión espuria puede aplicarse tan fácilmente a una regresión de Poisson como una regresión ordinaria (por lo que sus estimaciones de parámetros también podrían ser erróneas / engañosas).

Dudo que su serie sea estacionaria, por lo que esto es potencialmente una amenaza seria para sus conclusiones, pero la regresión espuria puede ser un problema incluso con series estacionarias (un punto que no se entiende tan ampliamente; doy una referencia para eso en este respuesta, que respuesta también ilustra el fenómeno con correlaciones en el caso no estacionario con un simple ejemplo de lanzamiento de monedas).

Glen_b -Reinstate a Monica
fuente
1

Si está ajustando un GLiM con una distribución de Poisson especificada para la respuesta, no tiene que intentar estabilizar la varianza condicional de la respuesta. Eso se hace cargo automáticamente de usted. El Poisson GLiM no asume una varianza constante en el sentido que lo hace un modelo de regresión lineal (Gauss) regular.

El efecto de la función de enlace será cambiar la forma de la línea de regresión en el espacio de datos original y, por lo tanto, cambiar la interpretación de los coeficientes. Si le preocupa si la forma / cantidad de curvatura será adecuada, siempre puede usar splines. Por lo tanto, es posible que desee elegir qué enlace utilizar en función de la capacidad de interpretación de sus coeficientes. En mi opinión, eso generalmente favorecerá el enlace de registro.

Si solo quisiera usar sus covariables sin funciones de spline, y quisiera determinar qué forma se ajusta mejor a sus datos, podría usar la validación cruzada y examinar el error predictivo fuera de la muestra.

Aunque escrito en el contexto de GLiM binomiales (no de Poisson), aún puede estar interesado en leer mi respuesta aquí: Diferencia entre modelos logit y probit .

gung - Restablece a Monica
fuente