Transformando distribuciones extremadamente sesgadas

13

Suponga que tengo una variable cuya distribución está sesgada positivamente en un grado muy alto, de modo que tomar el registro no será suficiente para colocarlo dentro del rango de asimetría para una distribución normal. ¿Cuáles son mis opciones en este momento? ¿Qué puedo hacer para transformar la variable en una distribución normal?

Histelheim
fuente
2
Solo para asegurarse, "sesgo negativo" significa la larga cola apuntando a izquierda o derecha. Si está realmente sesgado negativamente (cola larga izquierda), la transformación logarítmica no funcionaría muy bien.
Penguin_Knight
66
La transformación recíproca es más fuerte que la logarítmica y a menudo conserva el significado, ya que las unidades de medida simplemente se invierten. Por ejemplo, el recíproco del tiempo para hacer algo es un tipo de velocidad, y viceversa. El recíproco de millas por galón o km por litro tiene sentido. Los recíprocos invierten el orden y se pueden negar si eso es preferible. Son naturalmente parte del esquema de Box-Cox con ese detalle adicional. Todos los valores deben ser positivos para que esto funcione bien. (En principio, funcionaría con todos los valores negativos, pero aún no he visto un ejemplo en la práctica.)
Nick Cox
2
@ Aksakal No puedo ver como una buena idea. El resultado es estadísticamente significativo solo para valores . Si los valores son recuentos, es artificial que una transformación no esté definida para 0s o 1s, independientemente de si esos valores ocurren en los datos. Si los valores son medidas, la restricción significa que la validez de una transformación depende de la elección de las unidades de medida, lo cual es absurdo, como si no se puede hacer porque uso cm, pero se puede hacer porque uso mm. (Que los logaritmos arrojen resultados complejos para argumentos negativos que no creo que ayuden estadísticamente.)ln(ln())>1ln(ln(0.7))ln(ln(7))
Nick Cox
2
@Aksakal Demasiado fuerte para decir "la transformación de registro no es una herramienta para curar la asimetría": si la asimetría es el único problema, los registros a menudo funcionan muy bien. Si su punto es que el sesgo de las distribuciones marginales no necesita ser un problema importante, tiendo a estar de acuerdo.
Nick Cox
3
Naturalmente, estoy de acuerdo, pero si usara cuadrados o logaritmos, no me sentiría obligado a ofrecer referencias, y de manera similar aquí. Pero la utilidad de los reciprocos, particularmente los tiempos y las velocidades, fue enfatizada por (por ejemplo) Tukey, JW 1977. Análisis exploratorio de datos. Reading, MA: Addison-Wesley y en varios de sus documentos. Millas por galón y galones por milla (o viceversa, litros por km y km por litro) son lugares comunes en las discusiones sobre los datos de rendimiento del automóvil. Las densidades y sus recíprocos son ejemplos bastante estándar en geografía y demografía.
Nick Cox

Respuestas:

13

Pruebe la transformación directa de Box-Cox según Box, GEP y Cox, DR (1964), "An Analysis of Transformations", Journal of the Royal Statistical Society, Serie B , 26, 211--234. SAS tiene la descripción de su función de verosimilitud en Normalizing Transformations , que puede usar para encontrar el parámetro óptimo , que se describe en Atkinson, AC (1985), Plots, Transformations, and Regression , Nueva York: Oxford University Press.λ

Es muy fácil implementarlo con la función LL, o si tiene un paquete de estadísticas como SAS o MATLAB use sus comandos: es el comando boxcox en MATLAB y PROC TRANSREG en SAS.

Además, en R esto está en el paquete MASS, función boxcox ().

Aksakal
fuente
5

Para el sesgo positivo (la cola está en el extremo positivo del eje x), existen la transformación de raíz cuadrada, la transformación logarítmica y la transformación inversa / recíproca (en orden de gravedad creciente). Por lo tanto, si la transformación del registro no es suficiente, puede usar el siguiente nivel de transformación. Box Cox ejecuta todas las transformaciones automáticamente para que pueda elegir la mejor.

Sarah Thomas
fuente
-5

La mayoría de las suites de software usarán el número de Euler como la base de registro predeterminada, AKA: registro natural. Puede usar un número base más alto para controlar los datos excesivamente sesgados a la derecha. La forma en que lo hace sintaxis depende del software que esté utilizando.

Si necesita salir de sus valores transformados una vez que se han realizado las estimaciones, podría ser un poco más fácil usar este método porque todo lo que tiene que hacer es realizar un operador exponencial en su variable con cualquier base de registro.

Matthew Brooks
fuente
66
mi