Para promediar el modelo de un GLM, ¿promediamos las predicciones en el enlace o la escala de respuesta?

12

Para calcular las predicciones promediadas por el modelo en la escala de respuesta de un GLM, ¿cuál es "correcto" y por qué?

  1. Calcule la predicción promedio del modelo en la escala del enlace y luego vuelva a transformar a la escala de respuesta, o
  2. Transforme las predicciones a la escala de respuesta y luego calcule el promedio del modelo

Las predicciones son cercanas pero no iguales si el modelo es un GLM. Los diferentes paquetes R ofrecen opciones para ambos (con diferentes valores predeterminados). Varios colegas han argumentado vociferantemente que # 1 está mal porque "todos hacen # 2". Mi intuición dice que el n. ° 1 es "correcto", ya que mantiene todas las matemáticas lineales (el n. ° 2 promedia las cosas que no están en una escala lineal). Una simulación simple descubre que el n. ° 2 tiene un MSE muy (¡muy!) Ligeramente más pequeño que el n. ° 1. Si el número 2 es correcto, ¿cuál es el motivo? Y, si el número 2 es correcto, ¿por qué mi razón (mantener lineal la matemática lineal) es un razonamiento deficiente?

Edición 1: Calcular medios marginales sobre los niveles de otro factor en un GLM es un problema similar a la pregunta que estoy haciendo más arriba. Russell Lenth calcula medios marginales de los modelos GLM utilizando el "tiempo" (sus palabras) del n. ° 1 (en el paquete emmeans) y su argumento es similar a mi intuición.

Edición 2: estoy usando el promedio de modelos para referirme a la alternativa a la selección de modelos donde una predicción (o un coeficiente) se estima como el promedio ponderado sobre todos o un subconjunto de "mejores" modelos anidados (ver referencias y paquetes R a continuación) .

Dados los modelos anidados, donde es la predicción lineal (en el espacio del enlace) para el individuo para el modelo , y es el peso para el modelo , la predicción promediada del modelo usando el n. ° 1 anterior (promedio en el enlace escala y luego volver a transformar a la escala de respuesta) es:η m i i m w m mMηimimwmm

Y^i=g1(m=1Mwmηim)

y la predicción promediada por el modelo usando el n. ° 2 anterior (transforma de nuevo todas las predicciones y luego el promedio en la escala de respuesta) es:M

Y^i=m=1Mwmg1(ηim)

Algunos métodos bayesianos y frecuentes de promediación de modelos son:

  • Hoeting, JA, Madigan, D., Raftery, AE y Volinsky, CT, 1999. Promedio de modelos bayesianos: un tutorial. Ciencia estadística, pp.382-401.

  • Burnham, KP y Anderson, DR, 2003. Selección de modelos e inferencia multimodelo: un enfoque práctico teórico de la información. Springer Science & Business Media.

  • Hansen, BE, 2007. Promedio del modelo de mínimos cuadrados. Econometrica, 75 (4), pp.1175-1189.

  • Claeskens, G. y Hjort, NL, 2008. Selección y promedio de modelos. Cambridge Books.

Los paquetes R incluyen BMA , MuMIn , BAS y AICcmodavg . (Nota: esta no es una pregunta sobre la sabiduría de promediar modelos en general).

JWalker
fuente
1
Sospecho que la razón por la que su pregunta no recibe respuestas es que otros lectores, como yo, no entienden su pregunta. ¿Qué quieres decir exactamente con "promedio de modelos"? Describa un contexto en detalle para que comprendamos qué problema está tratando de resolver. Hasta donde puedo ver, el paquete emmeans no promedia las predicciones de diferentes modelos.
Gordon Smyth
1
Gracias por preguntar esto y puedo ver que agregar la nota de Russell Lenth confunde mi pregunta. Traté de aclarar esto arriba. El paquete emmeans calculará medias marginales y SE sobre los niveles de otro factor y estas estadísticas se calculan en la escala del enlace y luego se transforman de nuevo. Consulte la sección "El modelo es nuestra mejor guía" .
JWalker
Realmente me interesaría cualquier respuesta a esta pregunta. Mientras tanto, un comentario. Ese resultado MSE se calcula en la escala transformada hacia atrás. Apostaría a que con los mismos resultados de simulación, el MSE, cuando se calcula en la escala del enlace, sería más pequeño con el n. ° 1 que con el n. ° 2. La razón es que la media de la muestra es el estimador de mínimos cuadrados de la media de la población, incluso en la escala incorrecta.
Russ Lenth

Respuestas:

6

La forma óptima de combinar estimadores o predictores depende de la función de pérdida que está tratando de minimizar (o de la función de utilidad que está tratando de maximizar).

En términos generales, si la función de pérdida mide los errores de predicción en la escala de respuesta, entonces el promedio de los predictores en la escala de respuesta es correcto. Si, por ejemplo, está buscando minimizar el error de predicción al cuadrado esperado en la escala de respuesta, entonces el predictor medio posterior será óptimo y, dependiendo de los supuestos de su modelo, eso puede ser equivalente a promediar predicciones en la escala de respuesta.

Tenga en cuenta que el promedio en la escala de predicción lineal puede funcionar muy mal para modelos discretos. Suponga que está utilizando una regresión logística para predecir la probabilidad de una variable de respuesta binaria. Si alguno de los modelos proporciona una probabilidad estimada de cero, entonces el predictor lineal para ese modelo será menos infinito. Tomar el promedio de infinito con cualquier número de valores finitos seguirá siendo infinito.

¿Has consultado las referencias que enumeras? Estoy seguro de que Hoeting et al (1999) discuten, por ejemplo, las funciones de pérdida, aunque quizás no con mucho detalle.

Gordon Smyth
fuente
1
Excelente. Gracias por esta respuesta (¡doy la bienvenida a los demás!). Supongo que "entonces el promedio de predictores probablemente sea óptimo o cercano" es el promedio de predictores en la escala de respuesta. La nota logística es especialmente útil.
JWalker
1
@rvl Con respecto a la linealidad de la función de pérdida, estaba pensando en términos de la función de influencia de la pérdida. Estoy de acuerdo en que es un poco críptico, así que he editado mis comentarios. Tengo que estar en desacuerdo con sus otros comentarios. Los GLM se estiman por ML, no por pérdida de error al cuadrado. A pesar del nombre, el algoritmo IRLS que es popular para GLM no minimiza una suma de cuadrados y la variable de trabajo IRLS involucra residuos estandarizados en la escala de respuesta, no en la escala de enlace. En cualquier caso, la estimación y la predicción no son lo mismo y no necesitan tener las mismas funciones de pérdida.
Gordon Smyth el
@rvl Los valores exactos ajustados a cero ocurren con frecuencia en la regresión logística y se han discutido en este foro varias veces.
Gordon Smyth
@rvl La pérdida no se evalúa en la escala del enlace. Esta discusión no es el lugar adecuado para ofrecerle un tutorial sobre GLM; en cambio, lo remito a mi libro sobre GLM que Springer publicará en aproximadamente un mes. Esta discusión tampoco es el lugar adecuado para que usted ofrezca una respuesta alternativa a la pregunta original. Escribe una respuesta adecuada si quieres hacer eso.
Gordon Smyth
Aquí está el enlace a nuestro libro sobre GLM: doi.org/10.1007/978-1-4419-0118-7
Gordon Smyth