¿ recomiendan las transformaciones raíz -ésima?

12

Mi colega quiere analizar algunos datos después de transformar la variable de respuesta elevándola a la potencia de (es decir, ). y0.12518y0.125

Me siento incómodo con esto, pero me cuesta articular por qué. No se me ocurre ninguna razón mecanicista para esta transformación. Tampoco lo he visto antes, y me preocupa que tal vez infle las tasas de error Tipo I o algo así, ¡pero no tengo nada que respalde estas preocupaciones!

Además, mi colega encuentra que estos modelos transformados superan a los modelos no transformados en una comparación AIC. ¿Esto, en sí mismo, justifica su uso?

AndrewMacDonald
fuente
99
Solo para su información, parece mucho a para muchos rangos de . La transformación logarítmica a menudo se justifica en muchos casos (pero también se usa a menudo en casos injustificados). log ( y ) yy1/8log(y)y
Cliff AB el
2
Esta es una discusión relacionada
usuario603
55
No puede comparar significativamente AIC entre modelos con variables dependientes transformadas. (La transformación de la variable independiente está bien.)
Stephan Kolassa
55
@CliffAB tiene razón. La principal diferencia práctica entre las pequeñas potencias positivas y el logaritmo es que puedes tomar potencias de cero. Cuando hay algunos ceros en los datos (quizás debido a la imprecisión en cómo se registraron los números), a veces una pequeña potencia (0.1 o incluso 0.01) funciona como un sustituto del logaritmo. (Mejor aún: utilizar el Box-Cox transformación de pequeño .) Puesto que muy pocas leyes naturales implican una potencia 1/8, sin embargo, y muchas de ellas entrañan fenómenos exponenciales, usando una lata de registro a veces proporcionan una mejor comprensión e interpretación que un pequeño poder. py=(xp1)/pp
whuber
3
Este es un pequeño riff sobre la idea de que esta transformación puede ser un sustituto de los logaritmos si se producen ceros. Un enlace logarítmico para modelos lineales generalizados dice que las respuestas medias varían exponencialmente, pero no supone que todos sus valores sean positivos. Entonces tolera algunos ceros en los datos. Aproximadamente, la implicación es que deberían o serían positivos si pudieran: por ejemplo, ceros informados (muestras cero en la muestra, concentraciones cero según la máquina) a veces significan no detectados. A pesar de su maravilloso nombre, Box-Cox parece sobrevendido cuando hay un vínculo natural en los GLM.
Nick Cox

Respuestas:

10

Es una práctica común aplicar transformaciones de potencia (Tukey, Box-Cox) con valores arbitrarios en la respuesta. Desde esa perspectiva, no veo ninguna preocupación particular con respecto a su valor de 1/8: si esa transformación le da buenos residuos, hágalo.

Por supuesto, cualquier transformación cambia la relación funcional que se ajusta, y puede ser que 1/8 no tenga sentido mecanicista, pero eso no sería una preocupación para mí cuando el propósito no es extrapolar o ajustar parámetros de un físico ley, pero para obtener un valor p apropiado en el signo del efecto (diría que ese es el caso de uso normal en una regresión). Para ese propósito, su única preocupación es que la función se ajuste a los datos en el dominio de sus valores predictores (wrt media y variación residual), y eso es fácil de verificar.

Si no está seguro del mejor valor para la transformación de potencia y desea comparar entre diferentes opciones, no debe comparar directamente los valores de probabilidad / AIC porque la transformación de potencia cambia la escala de la respuesta. Afortunadamente, resulta que es relativamente sencillo calcular una corrección para la transformación, de modo que las diferentes transformaciones se puedan comparar a través de su probabilidad (corregida) (ver, por ejemplo, aquí ).

En R, esto se implementa en MASS :: boxcox: esta es una forma conveniente de elegir el valor correcto para la potencia.

Florian Hartig
fuente