¿Qué otras transformaciones de normalización se usan comúnmente más allá de las comunes como la raíz cuadrada, el registro, etc.?

10

En el análisis de los puntajes de las pruebas (por ejemplo, en Educación o Psicología), las técnicas de análisis comunes a menudo suponen que los datos se distribuyen normalmente. Sin embargo, tal vez la mayoría de las veces, los puntajes tienden a desviarse a veces salvajemente de lo normal.

Estoy familiarizado con algunas transformaciones de normalización básicas, como: raíces cuadradas, logaritmos, transformaciones recíprocas para reducir el sesgo positivo, versiones reflejadas de lo anterior para reducir el sesgo negativo, cuadrar las distribuciones leptokurtic. He oído hablar de transformaciones de arcoseno y transformaciones de poder, aunque no estoy realmente bien informado sobre ellas.

Entonces, tengo curiosidad por saber qué otras transformaciones usan comúnmente los analistas.

data-transformation normality-assumption variance-stabilizing Mike Wong
fuente

5

La transformación de Box-Cox incluye muchos de los que citó. Vea esta respuesta para algunos detalles:

¿Cómo debo transformar los datos no negativos, incluidos los ceros?

ACTUALIZACIÓN: Estas diapositivas proporcionan una visión general bastante buena de las transformaciones de Box-Cox.

ars
fuente

Si aplicamos las herramientas t a los datos transformados de Box-Cox, obtendremos inferencias sobre la diferencia en los medios de los datos transformados. ¿Cómo podemos interpretar aquellos en la escala original de medición? (La media de los valores transformados no es la media transformada). En otras palabras (si estoy en lo correcto), tomar la transformación inversa de la estimación de la media, en la escala transformada, no da una estimación de la media en la escala original.

George Dontas

@ gd047, algunas pruebas suponen la normalidad de la distribución de la media, no los datos. La prueba t tiende a ser bastante sólida para los datos subyacentes. Sin embargo, tiene razón: con las pruebas posteriores a la transformación, los resultados se informan después de la transformación inversa, y la interpretación puede ser muy problemática. Todo se reduce a cuán "anormales" son sus datos, puede escapar sin transformar o aplicar, por ejemplo, una transformación de registro que sea más fácil de interpretar. De lo contrario, es contextual sobre la transformación y el dominio reales y realmente no tengo una buena respuesta. ¿Podría valer la pena preguntar para ver lo que otros dicen?

ars

10

El primer paso debe ser preguntar por qué sus variables no están distribuidas normalmente. Esto puede ser esclarecedor. Hallazgos comunes de mi experiencia:

Las pruebas de habilidad (por ejemplo, exámenes, pruebas de inteligencia, pruebas de admisión) tienden a estar sesgadas negativamente cuando hay efectos de techo y positivamente sesgadas cuando hay efectos de piso. Ambos hallazgos sugieren que el nivel de dificultad de la prueba no está optimizado para la muestra, ya que es demasiado fácil o demasiado difícil para diferenciar de manera óptima la capacidad. También implica que la variable de interés latente todavía podría distribuirse normalmente, pero que la estructura de la prueba está induciendo un sesgo en la variable medida.
Las pruebas de habilidad a menudo tienen valores atípicos en términos de puntajes bajos. En resumen, hay muchas maneras de obtener malos resultados en una prueba. En particular, esto a veces se puede ver en los exámenes en los que hay un pequeño porcentaje de estudiantes donde se combinan una combinación de falta de aptitud y falta de esfuerzo para crear puntajes muy bajos en los exámenes. Esto implica que la variable de interés latente probablemente tenga algunos valores atípicos.
En relación con las pruebas de autoinforme (por ejemplo, pruebas de personalidad, de actitud, etc.), a menudo se produce un sesgo cuando la muestra es inherentemente alta en la escala (por ejemplo, las distribuciones de satisfacción con la vida se sesgan negativamente porque la mayoría de las personas están satisfechas) o cuando la escala se ha optimizado para una muestra diferente a la que se aplica la prueba (por ejemplo, aplicar una medida clínica de depresión a una muestra no clínica).

Este primer paso puede sugerir modificaciones de diseño para la prueba. Si conoce estos problemas con anticipación, incluso puede diseñar su prueba para evitarlos, si los ve como problemáticos.

El segundo paso es decidir qué hacer en la situación en la que tiene datos no normales. Las transformaciones de notas son solo una estrategia posible. Reitero el consejo general de una respuesta anterior con respecto a la no normalidad :

Muchos procedimientos que suponen la normalidad de los residuos son robustos a violaciones modestas de la normalidad de los residuos.
Bootstrapping es generalmente una buena estrategia
Las transformaciones son otra buena estrategia. Tenga en cuenta que, según mi experiencia, los tipos de sesgo leve que ocurren comúnmente con la capacidad y las pruebas psicológicas de autoinforme generalmente se pueden transformar fácilmente en una distribución que se aproxima a la normalidad utilizando un log, sqrt o transformación inversa (o el equivalente inverso).

Jeromy Anglim
fuente

9

John Tukey discute sistemáticamente las transformaciones en su libro sobre EDA. Además de la familia Box-Cox (transformaciones de potencia a escala afinada), define una familia de transformaciones "plegadas" para proporciones (esencialmente potencias de x / (1-x)) y recuentos "iniciados" (agregando un desplazamiento positivo a los datos contados antes de transformarlos). Las transformaciones plegadas, que esencialmente generalizan el logit, son especialmente útiles para los puntajes de las pruebas.

En una línea completamente diferente, Johnson & Kotz en sus libros sobre distribuciones ofrecen muchas transformaciones destinadas a convertir las estadísticas de prueba a la normalidad aproximada (oa alguna otra distribución objetivo), como la transformación de raíz cúbica para chi-cuadrado. Este material es una gran fuente de ideas para transformaciones útiles cuando anticipa que sus datos seguirán alguna distribución específica.

whuber
fuente

2

Una opción simple es usar sumas de puntajes en lugar de los puntajes mismos. La suma de las distribuciones tiende a la normalidad. Por ejemplo, en Educación, podría agregar los puntajes de un estudiante en una serie de pruebas.

Otra opción, por supuesto, es utilizar técnicas que no asuman la normalidad, que se subestiman y subutilizan.

Carlos Accioly
fuente

1

Creo que las sumas deben normalizarse (por ejemplo, usar la puntuación media) para que la distribución tienda a la normalidad.

1

Si, eso es correcto. En mi ejemplo supuse que las clases tendrían el mismo número de estudiantes, lo cual no es realista. Gracias.

Carlos Accioly

1

$X \sim F$ $Y ~ Lambert W \times F$

$X \sim N(\mu, \sigma^2)$ $\theta = (\mu_x, \sigma_x, \delta, \alpha)$ $\alpha \equiv 1$

Ahora, como transformación de datos, esto se vuelve interesante ya que la transformación es biyectiva (casi biyectiva para casos sesgados) y puede obtenerse explícitamente utilizando la función W de Lambert (de ahí el nombre Lambert W x F). Esto significa que podemos eliminar el sesgo de los datos y también eliminar las colas pesadas (¡biyectamente!).

Puede probarlo usando el paquete LambertW R, con el manual que muestra muchos ejemplos de cómo usarlo.

Para aplicaciones ver estas publicaciones

¿Cuál es la distribución de estos datos? : esto tiene una ilustración completa de cómo transformar los datos a la normalidad en R usando el paquete LambertW .
Buscando una distribución donde: Media = 0, la varianza es variable, Inclinación = 0 y curtosis es variable

Georg M. Goerg
fuente

¿Qué otras transformaciones de normalización se usan comúnmente más allá de las comunes como la raíz cuadrada, el registro, etc.?

Respuestas: