¿Cuán robusto es el coeficiente de correlación de Pearson con las violaciones de la normalidad?

Los datos para ciertos tipos de variables tienden a ser no normales cuando se miden en poblaciones particulares (por ejemplo, niveles de depresión en una población de personas con trastorno depresivo mayor). Dado que Pearson asume la normalidad, ¿cuán robusto es el estadístico de prueba en condiciones de no normalidad?

Tengo una serie de variables para las que me gustaría tener coeficientes de correlación, pero el sesgo Z para algunas de esas variables es significativo en p <.001 (y eso es para una muestra relativamente pequeña). He intentado algunas transformaciones, pero las mejoras en las distribuciones son solo marginales en el mejor de los casos.

¿Voy a tener que seguir con los análisis no paramétricos? ¿Y no solo para las correlaciones, sino también para otros tipos de análisis?

correlation Arqueoptérix
fuente

Espera, ¿el coeficiente de correlación de Pearson supone normalidad? No creo que lo haga, y lo he estado usando en datos no normales. Simplemente no es robusto para algunas cosas que suceden con mayor frecuencia en algunas situaciones no normales, pero hay muchas situaciones no normales en las que no veo ningún problema con el uso del coeficiente de correlación de Pearson.

Douglas Zare

Que la correlación de Pearson asume normalidad es lo que afirman muchos textos de estadísticas. He oído en otra parte que la normalidad es una suposición innecesaria para la r de Pearson. Cuando ejecuto los análisis, tanto Pearson como Spearman producen resultados relativamente similares.

Archaeopteryx

El coeficiente de correlación de rango de Spearman es el coeficiente de correlación de Pearson aplicado a las clasificaciones no normales. Todavía no sé en qué sentido crees que Pearson requiere normalidad. Quizás pueda decir algunas cosas adicionales en caso de que lo esté utilizando en una distribución normal multivariada.

Douglas Zare

Solo lo estoy usando para correlaciones bivariadas simples. No estoy seguro de por qué se afirma que se requiere normalidad. Los textos de estadísticas que he leído siempre enumeran la normalidad como una suposición de la correlación de Pearson y aconsejan usar Spearman's para condiciones en las que se mantiene la no normalidad.

Archaeopteryx

Respuestas:

Respuesta corta: muy poco robusta. La correlación es una medida de dependencia lineal , y cuando una variable no se puede escribir como una función lineal de la otra (y todavía tiene la distribución marginal dada), no se puede tener una correlación perfecta (positiva o negativa). De hecho, los posibles valores de correlación pueden estar severamente restringidos.

El problema es que, si bien la correlación de la población siempre está entre y , el rango exacto alcanzable depende en gran medida de las distribuciones marginales. Una prueba rápida y una demostración: $-1$ $1$

Rango alcanzable de la correlación

Si tiene la función de distribución y las funciones de distribución marginal y , existen algunos límites superiores e inferiores bastante agradables para , llamado límites de Fréchet. Estos son (Intenta demostrarlo; no es muy difícil). $(X,Y)$ $H$ $F$ $G$ $H$

H_{-} (x, y) \leq H (x, y) \leq H_{+} (x, y),

$H_-(x,y) \leq H(x,y) \leq H_+(x,y),$

\begin{aligned} H_{-} (x, y) & = max (F (x) + G (y) - 1, 0) \\ H_{+} (x, y) & = min (F (x), G (y)) . \end{aligned}

$\begin{aligned} H_-(x,y) &= \max(F(x) + G(y)-1, 0)\\ H_+(x,y) &= \min(F(x), G(y)). \end{aligned}$

Los límites son en sí mismos funciones de distribución. Deje que tenga una distribución uniforme. El límite superior es la función de distribución de y el límite inferior es la función de distribución de . $U$ $(X,Y)=(F^-(U), G^-(U))$ $(F^-(-U), G^-(1-U))$

Ahora, usando esta variante en la fórmula para la covarianza, vemos que obtenemos la correlación máxima y mínima cuando es igual a y , respectivamente, es decir, cuando es a (positiva o negativamente, respectivamente ) función monótona de .

Cov (X, Y) = \iint H (x, y) - F (x) G (y) d x d y,

$\mathop{\textrm{Cov}}(X,Y)=\iint H(x,y)-F(x)G(y) \mathop{\mathrm d\!}x \mathop{\mathrm d\!}y,$

H

$H$

H_{+}

$H_+$

H_{-}

$H_-$

Y

$Y$

X

$X$

Ejemplos

Aquí hay algunos ejemplos (sin pruebas):

Cuando y se distribuyen normalmente, se obtiene el máximo y el mínimo cuando tiene la costumbre de distribución normal bivariada donde se escribe como una función lineal de . Es decir, obtenemos el máximo para Aquí los límites son (por supuesto) y , sin importar qué medios y variaciones tengan e $X$ $Y$ $(X,Y)$ $Y$ $X$
$Y = μ_{Y} + σ_{Y} \frac{X - μ_{X}}{σ_{X}} .$ $Y=\mu_Y+\sigma_Y \frac{X-\mu_X}{\sigma_X}.$ $-1$ $1$ $X$ $Y$
Cuando y tienen distribuciones logarítmicas normales, el límite inferior nunca es alcanzable, ya que ello implica que podría ser escrito para algunos y positivo , y nunca puede ser negativo. Existen fórmulas (ligeramente feas) para los límites exactos, pero permítanme dar un caso especial. Cuando e tienen distribuciones lognormales estándar (lo que significa que cuando se exponen, son normales estándar), el rango alcanzable es . (En general, el límite superior también está restringido). $X$ $Y$ $Y$ $Y=a-bX$ $a$ $b$ $Y$ $X$ $Y$ $[-1/e, 1]\approx [-0.37, 1]$
Cuando tiene una distribución normal estándar e tiene una distribución lognormal estándar, los límites de correlación son $X$ $Y$
$\pm \frac{1}{\sqrt{e - 1}} \approx 0.76.$ $\pm \frac{1}{\sqrt{e-1}} \approx 0.76.$

Tenga en cuenta que todos los límites son para la correlación de la población . La correlación de la muestra puede extenderse fácilmente fuera de los límites, especialmente para muestras pequeñas (ejemplo rápido: tamaño de muestra de 2).

Estimando los límites de correlación

En realidad, es bastante fácil estimar los límites superior e inferior de la correlación si puede simular a partir de las distribuciones marginales. Para el último ejemplo anterior, podemos usar este código R:

> n = 10^5      # Sample size: 100,000 observations
> x = rnorm(n)  # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769

Si solo tenemos datos reales y no conocemos las distribuciones marginales, aún podemos usar el método anterior. No es un problema que las variables sean dependientes siempre que los pares de observaciones sean dependientes. Pero ayuda tener muchos pares de observación.

Transformando los datos

Por supuesto, es posible transformar los datos para que estén (marginalmente) normalmente distribuidos y luego calcular la correlación en los datos transformados. El problema es de interpretabilidad. (¿Y por qué usar la distribución normal en lugar de cualquier otra distribución donde puede ser una función lineal de ?) Para los datos que son bivariados normalmente distribuidos, la correlación tiene una buena interpretación (su cuadrado es la varianza de una variable explicada por la otra ) Este no es el caso aquí. $Y$ $X$

Lo que realmente está haciendo aquí es crear una nueva medida de dependencia que no dependa de las distribuciones marginales; es decir, está creando una medida de dependencia basada en cópula . Ya existen varias medidas de este tipo, siendo ρ de Spearman  y τ de Kendall  las más conocidas. (Si está realmente interesado en los conceptos de dependencia, no es una mala idea buscar cópulas).

En conclusión

Algunas reflexiones y consejos finales: solo mirar la correlación tiene un gran problema: hace que dejes de pensar. Mirar los diagramas de dispersión, por otro lado, a menudo te hace comenzar a pensar. Por lo tanto, mi consejo principal sería examinar los diagramas de dispersión y tratar de modelar la dependencia explícitamente.

Dicho esto, si necesita una medida simple de correlación, simplemente usaría ρ de Spearman  (y el intervalo de confianza asociado y las pruebas). Su alcance no está restringido. Pero sea muy consciente de la dependencia no monótona. El artículo de Wikipedia sobre correlación tiene un par de buenas tramas que ilustran posibles problemas.

Karl Ove Hufthammer
fuente

+1 Esta muy buena contribución claramente aborda varios problemas recurrentes asociados con las correlaciones. Aprecio especialmente los comentarios en el primer párrafo final sobre detener / comenzar a pensar.

whuber

¿La no robustez permanecería incluso asintóticamente? Si es así, ¿la wiki es incorrecta al decir que "[La distribución t de Student para una transformación simple de r] también se mantiene aproximadamente incluso si los valores observados no son normales, siempre que los tamaños de muestra no sean muy pequeños"?

máximo

¿Cómo son las distribuciones de estas variables (más allá de estar sesgadas)? Si la única no normalidad es la asimetría, entonces una transformación de algún tipo debe ayudar. Pero si estas variables tienen muchos bultos, entonces ninguna transformación las llevará a la normalidad. Si la variable no es continua, lo mismo es cierto.

¿Qué tan robusta es la correlación con las violaciones? Echa un vistazo al Cuarteto Anscombe. Ilustra varios problemas bastante bien.

En cuanto a otros tipos de análisis, depende del análisis. Si las variables sesgadas son variables independientes en una regresión, por ejemplo, puede que no haya ningún problema en absoluto: debe observar los residuos.

Peter Flom - Restablece a Monica
fuente

Algunas de las variables también tienen problemas con la curtosis, pero la asimetría es el mayor problema. He intentado transformaciones de raíz cuadrada y registro en las variables del problema, pero no mejoran mucho. De hecho, las distribuciones parecen ser casi exactamente iguales, pero con una mayor acumulación de puntajes.

Archaeopteryx

Eso parece muy extraño. ¿Puedes publicar la media, mediana, asimetría, curtosis de la variable en cuestión? ¿O (aún mejor) una gráfica de densidad?

Peter Flom - Restablece a Monica

Independientemente de si la distribución de (X, Y) es bivariada normal o no, la correlación de Pearson es una medida del grado de linealidad. La distribución de probabilidad para la estimación de la muestra dependerá de la normalidad.

Michael R. Chernick

Esas variables no son muy sesgadas. Puedes dejarlos como están.

Peter Flom - Restablece a Monica

No te preocupes por el significado aquí. Por lo general, se considera que la oblicuidad y la curtosis que es <-2 o> 2 tal vez necesiten transformación. Mejor aún es mirar gráficos, por ejemplo, un gráfico de cuantil normal y un gráfico de densidad w / kernel para ver qué está sucediendo.

Peter Flom - Restablece a Monica