Exprese respuestas en términos de unidades originales, en datos transformados de Box-Cox

13

Para algunas mediciones, los resultados de un análisis se presentan adecuadamente en la escala transformada. Sin embargo, en la mayoría de los casos, es deseable presentar los resultados en la escala de medición original (de lo contrario, su trabajo es más o menos inútil).

Por ejemplo, en el caso de datos transformados logarítmicamente, surge un problema con la interpretación en la escala original porque la media de los valores registrados no es el logaritmo de la media. Tomar el antilogaritmo de la estimación de la media en la escala logarítmica no da una estimación de la media en la escala original.

Sin embargo, si los datos transformados en el registro tienen distribuciones simétricas, se mantienen las siguientes relaciones (ya que el registro conserva el orden):

Media [Iniciar sesión (Y)] = Mediana [Iniciar sesión (Y)] = Iniciar sesión [Mediana (Y)]

$\text{Mean}[\log (Y)] = \text{Median}[\log (Y)] = \log[\text{Median} (Y)]$

(el antilogaritmo de la media de los valores logarítmicos es la mediana en la escala original de mediciones).

Por lo tanto, solo puedo hacer inferencias sobre la diferencia (o la relación) de las medianas en la escala de medición original.

Las pruebas t de dos muestras y los intervalos de confianza son más confiables si las poblaciones son más o menos normales con aproximadamente desviaciones estándar, por lo que podemos sentir la tentación de usar la Box-Coxtransformación para que se asuma la suposición de normalidad (también creo que es una transformación estabilizadora de varianza )

Sin embargo, si aplicamos las herramientas t a los Box-Coxdatos transformados, obtendremos inferencias sobre la diferencia en los medios de los datos transformados. ¿Cómo podemos interpretar aquellos en la escala original de medición? (La media de los valores transformados no es la media transformada). En otras palabras, tomar la transformación inversa de la estimación de la media, en la escala transformada, no da una estimación de la media en la escala original.

¿Puedo hacer inferencias solo sobre las medianas en este caso? ¿Hay alguna transformación que me permita volver a los medios (en la escala original)?

Esta pregunta se publicó inicialmente como un comentario aquí.

data-transformation confidence-interval t-test interpretation George Dontas
fuente

11

Si desea hacer inferencias específicamente sobre la media de la variable original, no use la transformación Box-Cox. Las transformaciones IMO Box-Cox son más útiles cuando la variable transformada tiene su propia interpretación, y la transformación Box-Cox solo lo ayuda a encontrar la escala correcta para el análisis; este es el caso sorprendentemente frecuente. Dos exponentes inesperados que encontré de esta manera fueron 1/3 (cuando la variable de respuesta era el volumen de la vejiga) y -1 (cuando la variable de respuesta era respiraciones por minuto).

La transformación logarítmica es probablemente la única excepción a esto. La media en la escala logarítmica corresponde a la media geométrica en la escala original, que es al menos una cantidad bien definida.

Aniko
fuente

Bueno, también tienes otras excepciones. -1 corresponde a la media armónica, ...

kjetil b halvorsen

9

Si la transformación de Box-Cox produce una distribución simétrica, entonces la media de los datos transformados se transforma de nuevo a la mediana en la escala original. Esto es cierto para cualquier transformación monotónica, incluidas las transformaciones de Box-Cox, las transformaciones de IHS, etc. Por lo tanto, las inferencias sobre las medias en los datos transformados corresponden a las inferencias sobre la mediana en la escala original.

Como los datos originales estaban sesgados (o no habrías usado una transformación de Box-Cox en primer lugar), ¿por qué quieres hacer inferencias sobre los medios? Pensé que trabajar con medianas tendría más sentido en esta situación. No entiendo por qué esto se ve como un "problema con la interpretación en la escala original".

Rob Hyndman
fuente

λ

$\lambda$

Gracias. Tal vez porque la muestra (de una población que creo que debería seguir una distribución aproximadamente simétrica) podría estar sesgada por casualidad.

George Dontas

44

Un buen ejemplo de la necesidad de hacer inferencias acerca de los medios, sin importar qué, es ofrecido por algunas evaluaciones de riesgos ambientales. Para simplificar enormemente, imagine que está planeando convertir la tierra en un parque. Usted prueba los suelos en busca de algún compuesto de interés y, como suele ser el caso, encuentra que su concentración está aproximadamente distribuida de forma lognormal. Sin embargo, las personas que usan el parque, que podrían quedar expuestas directamente a estos suelos, efectivamente "muestrearán" los suelos de manera uniforme y aleatoria a medida que se mueven. Su exposición en el tiempo será la concentración media aritmética, no su media geométrica.

whuber

1

A veces nos interesan los problemas que surgen de las formulaciones de la cantidad total de algo. Si conoce la media, puede pasar de la media al total (multiplicando por el número de observaciones). ¡No hay forma de pasar de la mediana al total!

George Dontas

6

Si desea hacer una inferencia sobre los medios en la escala original, podría considerar usar una inferencia que no use una suposición de normalidad.

Ten cuidado, sin embargo. Simplemente conectando una comparación directa de medias a través de un nuevo muestreo (ya sea pruebas de permutación o bootstrapping) cuando las dos muestras tienen variaciones diferentes puede ser un problema si su análisis asume que las variaciones son iguales (y las variaciones iguales en la escala transformada serán diferencias diferentes) en la escala original si las medias difieren). Tales técnicas no evitan la necesidad de pensar en lo que estás haciendo.

$f(x+h)$ $t[\mu + (Y-\mu)]$ $Y$ $\mu$ $\sigma^2$ $t()$

$t(\mu)$ es una constante, dejándolo con una aproximación de un solo término para la varianza.

-

El caso más fácil es cuando tiene normalidad en la escala logarítmica y, por lo tanto, es lognormal en la escala original. Si se conoce su varianza (lo que ocurre muy raramente en el mejor de los casos), puede construir CI y PI lognormales en la escala original, y puede dar una media pronosticada a partir de la media de la distribución de la cantidad relevante.

$t$ $t$ no tiene ningún momentos . Entonces, la media de una predicción simplemente no existe.

Debe pensar con mucho cuidado exactamente qué pregunta está tratando de responder.

Glen_b -Reinstate a Monica
fuente

Exprese respuestas en términos de unidades originales, en datos transformados de Box-Cox

Respuestas: