La mayoría de las veces, cuando las personas hablan sobre transformaciones variables (tanto para variables predictoras como de respuesta), discuten formas de tratar la asimetría de los datos (como la transformación logarítmica, la transformación de caja y cox, etc.). Lo que no puedo entender es por qué eliminar la asimetría se considera una práctica recomendada tan común. ¿Cómo afecta la asimetría al rendimiento de varios tipos de modelos, como los modelos basados en árboles, los modelos lineales y los modelos no lineales? ¿Qué tipo de modelos se ven más afectados por la asimetría y por qué?
16
Respuestas:
Al eliminar la asimetría, las transformaciones intentan hacer que el conjunto de datos siga la distribución gaussiana. La razón es simplemente que si el conjunto de datos se puede transformar para que sea estadísticamente lo suficientemente cercano a un conjunto de datos gaussiano, entonces el mayor conjunto de herramientas posibles están disponibles para su uso. Las pruebas como ANOVA, test, F- test y muchas otras dependen de que los datos tengan una varianza constante ( σ 2 ) o sigan una distribución gaussiana. 1t F σ2
Hay modelos que son más robustos 1 (como el uso de la prueba de Levine en lugar de la prueba de Bartlett), pero la mayoría de las pruebas y modelos que funcionan bien con otras distribuciones requieren que sepa con qué distribución está trabajando y, por lo general, solo son apropiados para una sola distribución también.
Para citar el Manual de estadísticas de ingeniería del NIST :
y en otro lugar
fuente
Esto es principalmente cierto para los modelos paramétricos. Como dijo Tavrock, tener una variable de respuesta que no esté sesgada hace que la aproximación gaussiana de la estimación de parámetros funcione mejor, esto porque la distribución simétrica converge mucho más rápido que las sesgadas a la gaussiana. Esto significa que, si tiene datos asimétricos, la transformación hará que el conjunto de datos más pequeño sea menor para usar intervalos de confianza y pruebas de parámetros (los intervalos de predicción aún no serán válidos, porque incluso si sus datos ahora son simétricos, no podría decir es normal, solo las estimaciones de parámetros convergerán a gaussianas).
Todo este discurso trata sobre la distribución condicionada de la variable de respuesta, se podría decir: sobre errores. No obstante, si tiene una variable que parece sesgada cuando mira su distribución no condicionada, eso podría significar que tiene una distribución condicionada sesgada. ajustar un modelo a sus datos aclarará su mente al respecto.
En los árboles de decisión, primero señalaré una cosa: no tiene sentido transformar variables explicativas sesgadas, las funciones monótonas no cambiarán nada; Esto puede ser útil en modelos lineales, pero no en árboles de decisión. Dicho esto, los modelos CART usan análisis de varianza para realizar escupe, y la varianza es muy sensible a los valores atípicos y a los datos asimétricos, esta es la razón por la cual la transformación de su variable de respuesta puede mejorar considerablemente la precisión de su modelo.
fuente
Creo que esto es en gran medida un artefacto de la tradición de volver a los gaussianos debido a sus buenas propiedades.
Pero existen buenas alternativas de distribución, por ejemplo, la gamma generalizada que abarca una gran cantidad de formas y formas de distribución asimétricas diferentes.
fuente
Como han dicho otros lectores, sería útil tener más antecedentes sobre lo que planea lograr con sus datos.
Dicho esto, hay dos doctrinas importantes en el ámbito de las estadísticas conocidas como el teorema del límite central y la ley de los grandes números . Es decir, cuantas más observaciones se tengan, más se espera que un conjunto de datos se aproxime a una distribución normal , una con igual media, mediana y moda. Bajo la ley de los grandes números, se espera que la desviación entre el valor esperado y el valor real eventualmente caiga a cero dadas suficientes observaciones.
Por lo tanto, una distribución normal permite al investigador hacer predicciones más precisas sobre una población si se conoce la distribución subyacente.
La asimetría es cuando una distribución se desvía de esto, es decir, una desviación podría estar sesgada positiva o negativamente. Sin embargo, el teorema del límite central argumenta que dado un conjunto de observaciones lo suficientemente grande, el resultado será una distribución aproximadamente normal. Por lo tanto, si la distribución no es normal, siempre se recomienda recopilar más datos antes de intentar cambiar la estructura subyacente de la distribución a través de los procedimientos de transformación que mencionó.
fuente
¿Cuándo es malo tener asimetría? Las distribuciones simétricas (generalmente, pero no siempre: por ejemplo, no para la distribución de Cauchy) tienen mediana, moda y significan muy cerca una de la otra. Entonces, considere, si queremos medir la ubicación de una población, es útil tener la mediana, la moda y la media cercanas entre sí.
Por ejemplo, si tomamos el logaritmo de la distribución del ingreso , reducimos la asimetría lo suficiente como para obtener modelos útiles de ubicación del ingreso. Sin embargo, todavía tendremos una cola derecha más pesada de lo que realmente queremos. Para reducir eso aún más, podríamos usar una distribución de Pareto . La distribución de Pareto es similar a una transformación log-log de los datos. Ahora, tanto las distribuciones de Pareto como las log-normales tienen dificultades en el extremo inferior de la escala de ingresos. Por ejemplo, ambos sufren deEn0 = - ∞ . El tratamiento de este problema está cubierto en transformaciones de poder .
Ejemplo de 25 ingresos en kilo dólares extraídos de www.
La asimetría de la primera columna es 0.99, y de la segunda es -0.05. La primera columna no es probablemente normal (Shapiro-Wilk p = 0.04) y la segunda no es significativamente no normal (p = 0.57).
Entonces, la pregunta es, si usted es una persona aleatoria que tiene una de las ganancias mencionadas, ¿qué es probable que gane? ¿Es razonable concluir que ganarías 90k o más que la mediana de 84k? ¿O es más probable concluir que incluso la mediana está sesgada como una medida de ubicación y que laExp[ significa ln( k $ ) ] de 76.7 k, que es menor que la mediana, ¿también es más razonable como una estimación?
Obviamente, el log-normal aquí es un mejor modelo y el logaritmo medio nos da una mejor medida de ubicación. Que esto es bien sabido, si no se comprende completamente, se ilustra con la frase "Anticipo recibir un salario de 5 cifras".
fuente
La mayoría de los resultados se basan en supuestos gaussianos. Si tiene una distribución sesgada, no tiene una distribución gaussiana, por lo que tal vez debería intentar desesperadamente convertirla en eso.
PERO, por supuesto, puedes probar con GLM.
fuente
Creo que no se trata solo de modelar, sino que nuestros cerebros no están acostumbrados a trabajar con datos muy sesgados. Por ejemplo, es bien sabido en las finanzas del comportamiento que no somos buenos para estimar las probabilidades muy bajas o altas.
fuente