Si la regresión lineal está relacionada con la correlación de Pearson, ¿hay alguna técnica de regresión relacionada con las correlaciones de Kendall y Spearman?

27

Quizás esta pregunta sea ingenua, pero:

Si la regresión lineal está estrechamente relacionada con el coeficiente de correlación de Pearson, ¿hay alguna técnica de regresión estrechamente relacionada con los coeficientes de correlación de Kendall y Spearman?

Miroslav Sabo
fuente
3
Como un simple ejemplo en el que tiene uno explicativa y una variable dependiente: Una regresión lineal de las filas de y y produciría coeficiente de correlación de Spearman como coeficiente de regresión. Y en este caso, x e y son intercambiables en la regresión. xyxy
COOLSerdash
2
Solo unos pocos pensamientos. El de Kendall y el ρ de Spearman son coeficientes de correlación basados ​​en rangos. La popular relación entre X e Y sería entonces necesario involucrar a sus filas. Sin embargo, calcular los rangos introduce dependencia entre las observaciones, lo que a su vez impone dependencia entre los términos de error, eliminando la regresión lineal. Sin embargo, en un entorno diferente, el modelado de la estructura de dependencia entre X e Y con cópulas haría un vínculo con Kendall τ y / o de Spearman ρ es posible, dependiendo de la elección de la cópula. τρxyxyτρ
QuantIbex
1
@QuantIbex ¿esa dependencia implica necesariamente ? E[εiεj]0
shadowtalker

Respuestas:

21

Hay un medio muy sencillo por el cual usar casi cualquier medida de correlación para ajustar regresiones lineales, y que reproduce mínimos cuadrados cuando se usa la correlación de Pearson.

βyβxx0

0

β~yβ~xx0

Esta definición funciona, por ejemplo, con todo tipo de correlaciones robustas y basadas en rangos. También se puede usar para obtener un intervalo para la pendiente (de la manera habitual, al encontrar las pendientes que marcan el límite entre correlaciones significativas y correlaciones insignificantes).

yβ~x

Aquí está la correlación trazada contra la pendiente para los cardatos en R:

ingrese la descripción de la imagen aquí

La correlación de Pearson cruza 0 en la pendiente de mínimos cuadrados, 3.932
La correlación de Kendall cruza 0 en la pendiente de Theil-Sen, 3.667
La correlación de Spearman cruza 0 dando una pendiente de "línea de Spearman" de 3.714

Esas son las tres estimaciones de pendiente para nuestro ejemplo. Ahora necesitamos intercepciones. Por simplicidad, solo usaré la media residual para la primera intersección y la mediana para las otras dos (no importa mucho en este caso):

           intercept
 Pearson:  -17.573 *     
 Kendall:  -15.667
 Spearman: -16.285

* (la pequeña diferencia de mínimos cuadrados se debe al error de redondeo en la estimación de la pendiente; sin duda, hay un error de redondeo similar en las otras estimaciones)

Las líneas ajustadas correspondientes (usando el mismo esquema de color que el anterior) son:

ingrese la descripción de la imagen aquí

Editar: en comparación, la pendiente de correlación de cuadrante es 3.333

Tanto la correlación de Kendall como las pendientes de correlación de Spearman son sustancialmente más robustas a los valores atípicos influyentes que los mínimos cuadrados. Vea aquí un ejemplo dramático en el caso de Kendall.

Glen_b -Reinstate a Monica
fuente
(+1) ¡Gran explicación! ¿Hay alguna razón por la que Kendall parece ser más preferido que Spearman en este contexto (al menos a juzgar por el hecho de que la correlación de Kendall corresponde a un estimador de pendientes que tiene un nombre, Theil-Sen, mientras que Spearman no)?
ameba dice Reinstate Monica
44
Hay varias razones por las cuales este parece ser el caso. Primero es que la línea Theil-Sen tiene un estimador simplemente descrito (mediana de las pendientes por pares), del que carece el Spearman; en muestras pequeñas es muy adecuado para el cálculo manual. La correlación de Kendall se acerca a la normalidad más rápido y es más manejable matemáticamente . Ver también aquí y aquí .
Glen_b -Reinstate Monica el
20

XYY

χ2

El modelo PO es un caso especial de una familia más general de modelos de probabilidad acumulativa (algunos denominan enlace acumulativo) que incluyen los modelos probit, riesgos proporcionales y log-log complementarios. Para un estudio de caso, vea el Capítulo 15 de mis Folletos .

Frank Harrell
fuente
4

Aaron Han (1987 en econometría) propuso el estimador de Máxima correlación de rango que se ajusta a los modelos de regresión maximizando tau. Dougherty y Thomas (2012 en la literatura de psicología) recientemente propusieron un algoritmo muy similar. Hay una gran cantidad de trabajo en el MRC que ilustra sus propiedades.

Aaron K. Han, Análisis no paramétrico de un modelo de regresión generalizada: El estimador de correlación de rango máximo, Journal of Econometrics, Volumen 35, Problemas 2–3, julio de 1987, páginas 303-316, ISSN 0304-4076, http: // dx.doi.org/10.1016/0304-4076(87)90030-3 . ( http://www.sciencedirect.com/science/article/pii/0304407687900303 )

Dougherty, MR y Thomas, RP (2012). Robusta toma de decisiones en un mundo no lineal. Revisión psicológica, 119 (2), 321. Recuperado de http://damlab.umd.edu/pdf%20articles/DoughertyThomas2012Rev.pdf .

Rankman
fuente