Modelo lineal con respuesta transformada logarítmica versus modelo lineal generalizado con enlace logarítmico

46

En este documento titulado "ELEGIR ENTRE MODELOS LINEALES GENERALIZADOS APLICADOS A DATOS MÉDICOS" los autores escriben:

En un modelo lineal generalizado, la media se transforma, mediante la función de enlace, en lugar de transformar la respuesta misma. Los dos métodos de transformación pueden conducir a resultados bastante diferentes; por ejemplo, la media de las respuestas transformadas logarítmicamente no es lo mismo que el logaritmo de la respuesta media . En general, el primero no puede transformarse fácilmente en una respuesta media. Por lo tanto, la transformación de la media a menudo permite que los resultados se interpreten más fácilmente, especialmente porque los parámetros de la media permanecen en la misma escala que las respuestas medidas.

Parece que aconsejan la adaptación de un modelo lineal generalizado (GLM) con enlace de registro en lugar de un modelo lineal (LM) con respuesta transformada de registro. No entiendo las ventajas de este enfoque, y me parece bastante inusual.

Mi variable de respuesta parece distribuida normalmente en el registro. Obtengo resultados similares en términos de coeficientes y sus errores estándar con cualquier enfoque.

Aún así, me pregunto: si una variable tiene una distribución logarítmica normal, ¿no es preferible la media de la variable transformada logarítmica sobre el logaritmo de la variable media no transformada , ya que la media es el resumen natural de una distribución normal, y el logaritmo -transformada variable normalmente se distribuye, mientras que la variable en sí no lo es?

miura
fuente
3
Estoy de acuerdo con su pista si tenemos una variable distribuida log-normal. Sin embargo, la media debe ser "transformada de nuevo" para obtener una estadística fácilmente comprensible basada en la escala original de datos. Esto podría explicar la conclusión del artículo. Además, después de la transformación logarítmica, es posible que no obtengamos una variable normalmente distribuida y, en este caso, no sé qué enfoque sería mejor.
soufanom

Respuestas:

46

Aunque puede parecer que la media de las variables transformadas logarítmicamente es preferible (dado que así es como normalmente se parametriza el logaritmo normal), desde un punto de vista práctico, el logaritmo de la media suele ser mucho más útil.

Esto es particularmente cierto cuando su modelo no es exactamente correcto, y para citar a George Box: "Todos los modelos están equivocados, algunos son útiles"

Supongamos que alguna cantidad se distribuye normalmente, digamos la presión arterial (¡no soy médico!), Y tenemos dos poblaciones, hombres y mujeres. Se podría suponer que la presión arterial promedio es más alta en mujeres que en hombres. Esto corresponde exactamente a preguntar si el registro de la presión arterial promedio es mayor en mujeres que en hombres. No es lo mismo que preguntar si el promedio de la presión arterial logarítmica es mayor en las mujeres que en los hombres .

μln

μ=eμln+σln2/2

σ2=(eσln21)e2μln+σln2

Obviamente, hacerlo hace que el álgebra sea terriblemente complicado, pero aún funciona y significa lo mismo.

ln(μ)σln2μln

μln

Hasta ahora, hemos asumido que la presión arterial es realmente logarítmica normal. Si las distribuciones verdaderas no son bastante normales, entonces la transformación de los datos (por lo general) empeorará las cosas aún más que antes, ya que no sabremos qué significa realmente nuestro parámetro "medio". Es decir, no sabremos que esas dos ecuaciones de media y varianza que di anteriormente son correctas. El uso de esos para transformar de ida y vuelta introducirá errores adicionales.

Corone
fuente
Esto me pareció muy útil: christoph-scherber.de/content/PDF%20Files/…
Aditya
2
Corone, destaqué dos oraciones importantes en tu respuesta. Espero que no te moleste. Retroceda si no está de acuerdo.
Stefan
17

Aquí están mis dos centavos de un curso avanzado de análisis de datos que tomé mientras estudiaba bioestadística (aunque no tengo más referencias que las notas de mi profesor):

Se reduce a si necesita o no abordar la linealidad y la heterocedasticidad (variaciones desiguales) en sus datos, o simplemente la linealidad.

Ella señala que la transformación de los datos afecta tanto los supuestos de linealidad como de varianza de un modelo. Por ejemplo, si sus residuos presentan problemas con ambos, podría considerar la transformación de los datos, lo que podría solucionar ambos. La transformación transforma los errores y, por lo tanto, su varianza.

Por el contrario, el uso de la función de enlace solo afecta el supuesto de linealidad, no la varianza. Se toma el registro de la media (valor esperado) y, por lo tanto, la varianza de los residuos no se ve afectada.

En resumen, si no tiene un problema con la varianza no constante, sugiere utilizar la función de enlace sobre la transformación, porque no desea cambiar su varianza en ese caso (ya está cumpliendo el supuesto).

Meg
fuente
66
Si bien la función de enlace solo afecta la media, la función de enlace es solo una parte de un GLM. Sus comentarios funcionan para una película gaussiana con enlace de registro. Un GLM gamma con enlace de registro tendrá el mismo supuesto de función de varianza (varianza proporcional al cuadrado medio) que tomar registros y ajustar una varianza constante en esa escala de registro. Otras familias dentro del marco GLM tendrán otras funciones de variación. Desafortunadamente, la tabla en la página de Wikipedia para GLM omite las funciones de variación para las familias de distribución que proporciona.
Glen_b
2
Sin embargo, mencionan algunos ejemplos aquí . Aquí está la gamma
Glen_b
-1

Si la respuesta verdadera no es simétrica (no está distribuida como normal) pero la respuesta transformada logarítmica es normal, entonces se utilizará la regresión lineal sobre la respuesta transformada y el coeficiente de exponente nos da la relación de la media geométrica.

Si la respuesta verdadera es simétrica (distribuida como normal) pero la relación entre el explicativo (X) y la respuesta no es lineal, pero el valor esperado del registro es una función lineal de X, entonces se usará GLM con enlace de registro y el coeficiente de exponente nos da la razón de la media aritmética

Md Ahshanul Haque
fuente
Esta respuesta no es clara. ¿Quiso decir "variable" en lugar de "verdadero"?
Michael Chernick
Este es un fragmento de una respuesta. Debe dejar en claro cómo se relaciona esto con la pregunta y cuál es la respuesta a la pregunta en realidad basada en esta información.
ReneBt