En este documento titulado "ELEGIR ENTRE MODELOS LINEALES GENERALIZADOS APLICADOS A DATOS MÉDICOS" los autores escriben:
En un modelo lineal generalizado, la media se transforma, mediante la función de enlace, en lugar de transformar la respuesta misma. Los dos métodos de transformación pueden conducir a resultados bastante diferentes; por ejemplo, la media de las respuestas transformadas logarítmicamente no es lo mismo que el logaritmo de la respuesta media . En general, el primero no puede transformarse fácilmente en una respuesta media. Por lo tanto, la transformación de la media a menudo permite que los resultados se interpreten más fácilmente, especialmente porque los parámetros de la media permanecen en la misma escala que las respuestas medidas.
Parece que aconsejan la adaptación de un modelo lineal generalizado (GLM) con enlace de registro en lugar de un modelo lineal (LM) con respuesta transformada de registro. No entiendo las ventajas de este enfoque, y me parece bastante inusual.
Mi variable de respuesta parece distribuida normalmente en el registro. Obtengo resultados similares en términos de coeficientes y sus errores estándar con cualquier enfoque.
Aún así, me pregunto: si una variable tiene una distribución logarítmica normal, ¿no es preferible la media de la variable transformada logarítmica sobre el logaritmo de la variable media no transformada , ya que la media es el resumen natural de una distribución normal, y el logaritmo -transformada variable normalmente se distribuye, mientras que la variable en sí no lo es?
Respuestas:
Aunque puede parecer que la media de las variables transformadas logarítmicamente es preferible (dado que así es como normalmente se parametriza el logaritmo normal), desde un punto de vista práctico, el logaritmo de la media suele ser mucho más útil.
Esto es particularmente cierto cuando su modelo no es exactamente correcto, y para citar a George Box: "Todos los modelos están equivocados, algunos son útiles"
Supongamos que alguna cantidad se distribuye normalmente, digamos la presión arterial (¡no soy médico!), Y tenemos dos poblaciones, hombres y mujeres. Se podría suponer que la presión arterial promedio es más alta en mujeres que en hombres. Esto corresponde exactamente a preguntar si el registro de la presión arterial promedio es mayor en mujeres que en hombres. No es lo mismo que preguntar si el promedio de la presión arterial logarítmica es mayor en las mujeres que en los hombres .
Obviamente, hacerlo hace que el álgebra sea terriblemente complicado, pero aún funciona y significa lo mismo.
Hasta ahora, hemos asumido que la presión arterial es realmente logarítmica normal. Si las distribuciones verdaderas no son bastante normales, entonces la transformación de los datos (por lo general) empeorará las cosas aún más que antes, ya que no sabremos qué significa realmente nuestro parámetro "medio". Es decir, no sabremos que esas dos ecuaciones de media y varianza que di anteriormente son correctas. El uso de esos para transformar de ida y vuelta introducirá errores adicionales.
fuente
Aquí están mis dos centavos de un curso avanzado de análisis de datos que tomé mientras estudiaba bioestadística (aunque no tengo más referencias que las notas de mi profesor):
Se reduce a si necesita o no abordar la linealidad y la heterocedasticidad (variaciones desiguales) en sus datos, o simplemente la linealidad.
Ella señala que la transformación de los datos afecta tanto los supuestos de linealidad como de varianza de un modelo. Por ejemplo, si sus residuos presentan problemas con ambos, podría considerar la transformación de los datos, lo que podría solucionar ambos. La transformación transforma los errores y, por lo tanto, su varianza.
Por el contrario, el uso de la función de enlace solo afecta el supuesto de linealidad, no la varianza. Se toma el registro de la media (valor esperado) y, por lo tanto, la varianza de los residuos no se ve afectada.
En resumen, si no tiene un problema con la varianza no constante, sugiere utilizar la función de enlace sobre la transformación, porque no desea cambiar su varianza en ese caso (ya está cumpliendo el supuesto).
fuente
Si la respuesta verdadera no es simétrica (no está distribuida como normal) pero la respuesta transformada logarítmica es normal, entonces se utilizará la regresión lineal sobre la respuesta transformada y el coeficiente de exponente nos da la relación de la media geométrica.
Si la respuesta verdadera es simétrica (distribuida como normal) pero la relación entre el explicativo (X) y la respuesta no es lineal, pero el valor esperado del registro es una función lineal de X, entonces se usará GLM con enlace de registro y el coeficiente de exponente nos da la razón de la media aritmética
fuente