¿Cuándo es la covarianza de distancia menos apropiada que la covarianza lineal?

Acabo de presentarme (vagamente) a la covarianza / correlación browniana / a distancia . Parece particularmente útil en muchas situaciones no lineales, cuando se prueba la dependencia. Pero no parece usarse con mucha frecuencia, a pesar de que la covarianza / correlación a menudo se usa para datos no lineales / caóticos.

Eso me hace pensar que podría haber algunos inconvenientes para la covarianza de distancia. Entonces, ¿qué son y por qué no todos usan siempre la covarianza de distancia?

correlation covariance distance-covariance nada101
fuente

Como referencia, creé una versión de correlación de distancia del gráfico de correlación en wikipedia

naught101

Leí que estaba usando dcov para comparar series de tiempo no lineales y combinarlas con el peso ... Me preguntaba si lo que hizo fue usar una covarianza de distancia ponderada ... lo que significa que le dio diferentes pesos a sus datos usando un vector de peso para calcular la correlación de distancia? Estoy tratando de hacer eso, pero no estoy seguro de si introducir un vector de peso en las fórmulas de correlación de distancia es el camino correcto.

user3757561

No, lo siento @ user3757561, solo estaba intentando la correlación de distancia como reemplazo de la correlación, y luego creando pesos basados en eso. Pero no

terminé

Respuestas:

He tratado de recopilar algunas observaciones sobre la covarianza de distancia en función de mis impresiones al leer las referencias que se enumeran a continuación. Sin embargo, no me considero un experto en este tema. Comentarios, correcciones, sugerencias, etc. son bienvenidos.

Las observaciones están (fuertemente) sesgadas hacia posibles inconvenientes, como se solicitó en la pregunta original .

A mi entender, los posibles inconvenientes son los siguientes:

La metodología es nueva . Supongo que este es el factor más importante con respecto a la falta de popularidad en este momento. Los documentos que describen la covarianza de distancia comienzan a mediados de la década de 2000 y avanzan hasta la actualidad. El artículo citado anteriormente es el que recibió más atención (¿bombo?) Y tiene menos de tres años. Por el contrario, la teoría y los resultados sobre la correlación y las medidas de correlación tienen más de un siglo de trabajo ya detrás de ellos.
Los conceptos básicos son más desafiantes . La correlación producto-momento de Pearson, a nivel operativo, se puede explicar a los estudiantes de primer año de la universidad sin un fondo de cálculo con bastante facilidad. Se puede establecer un punto de vista "algorítmico" simple y la intuición geométrica es fácil de describir. Por el contrario, en el caso de la covarianza de distancia, incluso la noción de sumas de productos de distancias euclidianas por pares es bastante más difícil y la noción de covarianza con respecto a un proceso estocástico va mucho más allá de lo que razonablemente podría explicarse a tal audiencia .
Es computacionalmente más exigente . El algoritmo básico para calcular el estadístico de prueba es en el tamaño de la muestra en lugar de para las métricas de correlación estándar. Para tamaños de muestra pequeños esto no es un gran problema, pero para los más grandes se vuelve más importante. $O(n^2)$ $O(n)$
La estadística de prueba no es libre de distribución, incluso asintóticamente . Uno podría esperar que para una estadística de prueba que sea consistente con todas las alternativas, que la distribución, al menos asintóticamente, sea independiente de las distribuciones subyacentes de e bajo la hipótesis nula. Este no es el caso para la covarianza de distancia, ya que la distribución bajo nulo depende de la distribución subyacente de e incluso cuando el tamaño de la muestra tiende al infinito. Se es cierto que las distribuciones son uniformemente delimitadas por una de distribución, que permite el cálculo de un conservador valor crítico. $X$ $Y$ $X$ $Y$ $\chi^2_1$
La correlación de distancia es una transformación uno a uno deen el caso bivariado normal $|\rho|$ . Esto no es realmente un inconveniente, e incluso podría verse como una fortaleza. Pero, si uno acepta una aproximación normal bivariada a los datos, lo que puede ser bastante común en la práctica, entonces se gana poco, si es que algo, usando la correlación de distancia en lugar de los procedimientos estándar.
Propiedades de potencia desconocidas . Ser consistente con todas las alternativas esencialmente garantiza que la covarianza de distancia debe tener una potencia muy baja contra algunas alternativas. En muchos casos, uno está dispuesto a renunciar a la generalidad para obtener poder adicional contra alternativas particulares de interés. Los documentos originales muestran algunos ejemplos en los que afirman un alto poder en relación con las métricas de correlación estándar, pero creo que, volviendo a (1.) arriba, su comportamiento frente a las alternativas aún no se entiende bien.

Para reiterar, esta respuesta probablemente sea bastante negativa. Pero esa no es la intención. Hay algunas ideas muy hermosas e interesantes relacionadas con la covarianza a distancia y la relativa novedad de la misma también abre vías de investigación para comprenderla más a fondo.

referencias :

GJ Szekely y ML Rizzo (2009), Brownian distancia covarianza , Ann. Appl. Estadístico. vol. 3, no. 4, 1236-1265.
GJ Szekely, ML Rizzo y NK Bakirov (2007), Medición y prueba de independencia por correlación de distancias , Ann. Estadístico. vol. 35, 2769–2794.
R. Lyons (2012), Covarianza de distancia en espacios métricos , Ann. Probab (a aparecer).

cardenal
fuente

Excelente respuesta, gracias. Algo de esto está un poco sobre mi cabeza, pero creo que podré remediarlo yo mismo :)

nada101

Ver también Resumen y discusión de: "Brownian Distance Covarnce" Statistics Journal Club, 36-825 Benjamin Cowley y Giuseppe Vinci 27 de octubre de 2014 stat.cmu.edu/~ryantibs/journalclub/dcov.pdf

Felipe G. Nievinski

O (n \log n)

$\mathcal{O}(n \log n)$

Bien podría estar perdiéndome algo, pero solo tener una cuantificación de la dependencia no lineal entre dos variables no parece tener una gran recompensa. No te dirá la forma de la relación. No le dará ningún medio para predecir una variable de la otra. Por analogía, cuando se realiza un análisis exploratorio de datos, a veces se usa una curva de loess (diagrama de dispersión ponderado localmente más suave) como un primer paso para ver si los datos se modelan mejor con una línea recta, una cuadrática, una cúbica, etc. Pero la loess en y por sí mismo no es una herramienta predictiva muy útil. Es solo una primera aproximación en el camino para encontrar una ecuación viable para describir una forma bivariada. Esa ecuación, a diferencia del loess (o el resultado de la covarianza de distancia), puede formar la base de un modelo confirmatorio.

rolando2
fuente

Para mis propósitos, tiene una recompensa. No estoy usando dcov () para predecir nada, más bien, comparo múltiples series de tiempo no lineales en un conjunto y las combino con pesos basados en su dependencia. En esta situación, dcov () tiene beneficios potencialmente grandes.

naught101

@ naught101 ¿Puedes poner algo de información adicional cuando dices "combinan"? Esto me parece interesante en términos de ponderación basada en dependencia no lineal. ¿Te refieres a categorizar las series de tiempo en grupos? Además, ¿qué enfatizan los pesos altos y bajos en este escenario?

coche fúnebre

@PraneethVepakomma: mira mi respuesta en stats.stackexchange.com/questions/562/…

naught101

Además, si conoce la forma general de dependencia (p. Ej., Ecuación polinomial), puede cuantificar la fuerza de la dependencia utilizando el coeficiente de determinación, ver, p. Ej., Calcular R2 ajustado para regresiones polinómicas

Felipe G. Nievinski