¿Por qué los datos sesgados no son preferidos para el modelado?

16

La mayoría de las veces, cuando las personas hablan sobre transformaciones variables (tanto para variables predictoras como de respuesta), discuten formas de tratar la asimetría de los datos (como la transformación logarítmica, la transformación de caja y cox, etc.). Lo que no puedo entender es por qué eliminar la asimetría se considera una práctica recomendada tan común. ¿Cómo afecta la asimetría al rendimiento de varios tipos de modelos, como los modelos basados ​​en árboles, los modelos lineales y los modelos no lineales? ¿Qué tipo de modelos se ven más afectados por la asimetría y por qué?

saurav shekhar
fuente
2
Para dar una respuesta razonable, aclare lo que quiere decir con: a) datos, b) modelado yc) modelos. La pregunta clave, como de costumbre, es qué quieres hacer con ella . Pero que es eso ?
querubín
Actualicé mi respuesta para agregar algunas citas relevantes y ampliar los reclamos.
Tavrock

Respuestas:

11

Al eliminar la asimetría, las transformaciones intentan hacer que el conjunto de datos siga la distribución gaussiana. La razón es simplemente que si el conjunto de datos se puede transformar para que sea estadísticamente lo suficientemente cercano a un conjunto de datos gaussiano, entonces el mayor conjunto de herramientas posibles están disponibles para su uso. Las pruebas como ANOVA, test, F- test y muchas otras dependen de que los datos tengan una varianza constante ( σ 2 ) o sigan una distribución gaussiana. 1tFσ2

Hay modelos que son más robustos 1 (como el uso de la prueba de Levine en lugar de la prueba de Bartlett), pero la mayoría de las pruebas y modelos que funcionan bien con otras distribuciones requieren que sepa con qué distribución está trabajando y, por lo general, solo son apropiados para una sola distribución también.

Para citar el Manual de estadísticas de ingeniería del NIST :

En el modelado de regresión, a menudo aplicamos transformaciones para lograr los siguientes dos objetivos:

  1. para satisfacer el supuesto de homogeneidad de varianzas para los errores.
  2. para linealizar el ajuste tanto como sea posible.

Se requiere un poco de cuidado y juicio ya que estos dos objetivos pueden entrar en conflicto. Por lo general, intentamos lograr variaciones homogéneas primero y luego abordamos el problema de tratar de linealizar el ajuste.

y en otro lugar

Un modelo que involucra una variable de respuesta y una sola variable independiente tiene la forma:

Yyo=F(Xyo)+miyo

donde es la variable de respuesta, X es la variable independiente, f es la función de ajuste lineal o no lineal, y E es el componente aleatorio. Para un buen modelo, el componente de error debería comportarse así:YXFmi

  1. dibujos al azar (es decir, independientes);
  2. de una distribución fija;
  3. con ubicación fija; y
  4. con variación fija

Además, para modelos de ajuste, generalmente se supone que la distribución fija es normal y la ubicación fija es cero. Para un buen modelo, la variación fija debe ser lo más pequeña posible. Un componente necesario de los modelos de ajuste es verificar estos supuestos para el componente de error y evaluar si la variación para el componente de error es suficientemente pequeña. El histograma, la gráfica de retraso y la gráfica de probabilidad normal se utilizan para verificar la distribución fija, la ubicación y los supuestos de variación en el componente de error. La gráfica de la variable de respuesta y los valores pronosticados versus la variable independiente se usa para evaluar si la variación es suficientemente pequeña. Las gráficas de los residuos versus la variable independiente y los valores predichos se usan para evaluar el supuesto de independencia.

Evaluar la validez y la calidad del ajuste en términos de los supuestos anteriores es una parte absolutamente vital del proceso de ajuste del modelo. Ningún ajuste debe considerarse completo sin un paso de validación de modelo adecuado.


  1. (abreviado) citas para reclamos:
    • Breyfogle III, Forrest W. Implementando Six Sigma
    • Pyzdek, Thomas. El manual de Six Sigma
    • Montgomery, Douglas C. Introducción al control estadístico de calidad
    • Ed. Cubberly, Willaim H y Bakerjan, Ramon. Manual de ingenieros de herramientas y fabricación: Edición de escritorio
Tavrock
fuente
Gracias por su respuesta Tavrock. Pero hasta donde yo sé, ANOVA o t-test de F-test no se usan en los árboles de decisión (al menos para realizar divisiones). Además, en la regresión lineal, la mayoría de los supuestos sobre la forma de la distribución están relacionados con los errores. Si los errores están sesgados, estas pruebas fallan. Entonces, esto significa que la asimetría de la variable predictora no debería afectar la calidad de la predicción para estos modelos. Por favor, corríjame si estoy equivocado. ¡¡Gracias de nuevo!!
saurav shekhar
1
¿Puede aclarar su pregunta? ¿Desea saber acerca de la transformación de la variable de respuesta, o sobre la transformación de las variables predictoras, o ambas?
Groovy_Worm
1
@Groovy_Worm gracias por señalar eso. En esta pregunta me preocupan las variables predictoras y de respuesta.
saurav shekhar
Es posible que esté buscando modelado lineal generalizado (GLM) . En la regresión lineal, normalmente asume que su variable dependiente sigue una distribución gaussiana condicional en las variables aleatorias X y e . Con GLM, puede expandir su universo para permitir (casi) cualquier tipo de distribución para su variable dependiente, sus variables independientes (a través de una función de enlace que especifique).
Chris K
7

Esto es principalmente cierto para los modelos paramétricos. Como dijo Tavrock, tener una variable de respuesta que no esté sesgada hace que la aproximación gaussiana de la estimación de parámetros funcione mejor, esto porque la distribución simétrica converge mucho más rápido que las sesgadas a la gaussiana. Esto significa que, si tiene datos asimétricos, la transformación hará que el conjunto de datos más pequeño sea menor para usar intervalos de confianza y pruebas de parámetros (los intervalos de predicción aún no serán válidos, porque incluso si sus datos ahora son simétricos, no podría decir es normal, solo las estimaciones de parámetros convergerán a gaussianas).

Todo este discurso trata sobre la distribución condicionada de la variable de respuesta, se podría decir: sobre errores. No obstante, si tiene una variable que parece sesgada cuando mira su distribución no condicionada, eso podría significar que tiene una distribución condicionada sesgada. ajustar un modelo a sus datos aclarará su mente al respecto.

En los árboles de decisión, primero señalaré una cosa: no tiene sentido transformar variables explicativas sesgadas, las funciones monótonas no cambiarán nada; Esto puede ser útil en modelos lineales, pero no en árboles de decisión. Dicho esto, los modelos CART usan análisis de varianza para realizar escupe, y la varianza es muy sensible a los valores atípicos y a los datos asimétricos, esta es la razón por la cual la transformación de su variable de respuesta puede mejorar considerablemente la precisión de su modelo.

carlo
fuente
1

Creo que esto es en gran medida un artefacto de la tradición de volver a los gaussianos debido a sus buenas propiedades.

Pero existen buenas alternativas de distribución, por ejemplo, la gamma generalizada que abarca una gran cantidad de formas y formas de distribución asimétricas diferentes.

saliente
fuente
1

Como han dicho otros lectores, sería útil tener más antecedentes sobre lo que planea lograr con sus datos.

Dicho esto, hay dos doctrinas importantes en el ámbito de las estadísticas conocidas como el teorema del límite central y la ley de los grandes números . Es decir, cuantas más observaciones se tengan, más se espera que un conjunto de datos se aproxime a una distribución normal , una con igual media, mediana y moda. Bajo la ley de los grandes números, se espera que la desviación entre el valor esperado y el valor real eventualmente caiga a cero dadas suficientes observaciones.

Por lo tanto, una distribución normal permite al investigador hacer predicciones más precisas sobre una población si se conoce la distribución subyacente.

La asimetría es cuando una distribución se desvía de esto, es decir, una desviación podría estar sesgada positiva o negativamente. Sin embargo, el teorema del límite central argumenta que dado un conjunto de observaciones lo suficientemente grande, el resultado será una distribución aproximadamente normal. Por lo tanto, si la distribución no es normal, siempre se recomienda recopilar más datos antes de intentar cambiar la estructura subyacente de la distribución a través de los procedimientos de transformación que mencionó.

Michael Grogan
fuente
1

¿Cuándo es malo tener asimetría? Las distribuciones simétricas (generalmente, pero no siempre: por ejemplo, no para la distribución de Cauchy) tienen mediana, moda y significan muy cerca una de la otra. Entonces, considere, si queremos medir la ubicación de una población, es útil tener la mediana, la moda y la media cercanas entre sí.

Por ejemplo, si tomamos el logaritmo de la distribución del ingreso , reducimos la asimetría lo suficiente como para obtener modelos útiles de ubicación del ingreso. Sin embargo, todavía tendremos una cola derecha más pesada de lo que realmente queremos. Para reducir eso aún más, podríamos usar una distribución de Pareto . La distribución de Pareto es similar a una transformación log-log de los datos. Ahora, tanto las distribuciones de Pareto como las log-normales tienen dificultades en el extremo inferior de la escala de ingresos. Por ejemplo, ambos sufren deEn0 0=-. El tratamiento de este problema está cubierto en transformaciones de poder .

Ejemplo de 25 ingresos en kilo dólares extraídos de www.

k$	lnk$
28  3.33220451
29  3.36729583
35  3.555348061
42  3.737669618
42  3.737669618
44  3.784189634
50  3.912023005
52  3.951243719
54  3.988984047
56  4.025351691
59  4.077537444
78  4.356708827
84  4.430816799
90  4.49980967
95  4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514

La asimetría de la primera columna es 0.99, y de la segunda es -0.05. La primera columna no es probablemente normal (Shapiro-Wilk p = 0.04) y la segunda no es significativamente no normal (p = 0.57).

First column    Mean 90.0 (95% CI, 68.6 to 111.3)     Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)

Entonces, la pregunta es, si usted es una persona aleatoria que tiene una de las ganancias mencionadas, ¿qué es probable que gane? ¿Es razonable concluir que ganarías 90k o más que la mediana de 84k? ¿O es más probable concluir que incluso la mediana está sesgada como una medida de ubicación y que laExp[mediaEn(kPS)]  de 76.7 k, que es menor que la mediana, ¿también es más razonable como una estimación?

Obviamente, el log-normal aquí es un mejor modelo y el logaritmo medio nos da una mejor medida de ubicación. Que esto es bien sabido, si no se comprende completamente, se ilustra con la frase "Anticipo recibir un salario de 5 cifras".

Carl
fuente
0

La mayoría de los resultados se basan en supuestos gaussianos. Si tiene una distribución sesgada, no tiene una distribución gaussiana, por lo que tal vez debería intentar desesperadamente convertirla en eso.

PERO, por supuesto, puedes probar con GLM.

Ruido rojo
fuente
0

Creo que no se trata solo de modelar, sino que nuestros cerebros no están acostumbrados a trabajar con datos muy sesgados. Por ejemplo, es bien sabido en las finanzas del comportamiento que no somos buenos para estimar las probabilidades muy bajas o altas.

Aksakal
fuente