En el análisis de los puntajes de las pruebas (por ejemplo, en Educación o Psicología), las técnicas de análisis comunes a menudo suponen que los datos se distribuyen normalmente. Sin embargo, tal vez la mayoría de las veces, los puntajes tienden a desviarse a veces salvajemente de lo normal.
Estoy familiarizado con algunas transformaciones de normalización básicas, como: raíces cuadradas, logaritmos, transformaciones recíprocas para reducir el sesgo positivo, versiones reflejadas de lo anterior para reducir el sesgo negativo, cuadrar las distribuciones leptokurtic. He oído hablar de transformaciones de arcoseno y transformaciones de poder, aunque no estoy realmente bien informado sobre ellas.
Entonces, tengo curiosidad por saber qué otras transformaciones usan comúnmente los analistas.
El primer paso debe ser preguntar por qué sus variables no están distribuidas normalmente. Esto puede ser esclarecedor. Hallazgos comunes de mi experiencia:
Este primer paso puede sugerir modificaciones de diseño para la prueba. Si conoce estos problemas con anticipación, incluso puede diseñar su prueba para evitarlos, si los ve como problemáticos.
El segundo paso es decidir qué hacer en la situación en la que tiene datos no normales. Las transformaciones de notas son solo una estrategia posible. Reitero el consejo general de una respuesta anterior con respecto a la no normalidad :
fuente
John Tukey discute sistemáticamente las transformaciones en su libro sobre EDA. Además de la familia Box-Cox (transformaciones de potencia a escala afinada), define una familia de transformaciones "plegadas" para proporciones (esencialmente potencias de x / (1-x)) y recuentos "iniciados" (agregando un desplazamiento positivo a los datos contados antes de transformarlos). Las transformaciones plegadas, que esencialmente generalizan el logit, son especialmente útiles para los puntajes de las pruebas.
En una línea completamente diferente, Johnson & Kotz en sus libros sobre distribuciones ofrecen muchas transformaciones destinadas a convertir las estadísticas de prueba a la normalidad aproximada (oa alguna otra distribución objetivo), como la transformación de raíz cúbica para chi-cuadrado. Este material es una gran fuente de ideas para transformaciones útiles cuando anticipa que sus datos seguirán alguna distribución específica.
fuente
Una opción simple es usar sumas de puntajes en lugar de los puntajes mismos. La suma de las distribuciones tiende a la normalidad. Por ejemplo, en Educación, podría agregar los puntajes de un estudiante en una serie de pruebas.
Otra opción, por supuesto, es utilizar técnicas que no asuman la normalidad, que se subestiman y subutilizan.
fuente
Ahora, como transformación de datos, esto se vuelve interesante ya que la transformación es biyectiva (casi biyectiva para casos sesgados) y puede obtenerse explícitamente utilizando la función W de Lambert (de ahí el nombre Lambert W x F). Esto significa que podemos eliminar el sesgo de los datos y también eliminar las colas pesadas (¡biyectamente!).
Puede probarlo usando el paquete LambertW R, con el manual que muestra muchos ejemplos de cómo usarlo.
Para aplicaciones ver estas publicaciones
fuente