¿Qué métodos existen para medir la fuerza de las relaciones arbitrarias altamente no lineales entre dos variables emparejadas? Por altamente no lineal, me refiero a las relaciones que no pueden modelarse de manera sensata o confiable mediante la regresión a un modelo conocido. Estoy particularmente interesado en las series temporales, pero imagino que cualquier cosa que funcione para datos de dos variables funcionaría aquí (si tratamos las dos series temporales como un conjunto de pares de puntos de datos)
Dos que conozco son la diferencia cuadrática media (es decir , el error cuadrático medio , tratando una serie de tiempo como el valor "esperado", y una como la observada), y la covarianza de distancia . ¿Qué otros hay?
Aclaración: Básicamente, estoy preguntando sobre la dependencia entre series, donde la correlación lineal o la correlación no lineal simple (después de log, exp, trig, otras transformaciones analíticas simples) realmente no significa mucho.
fuente
Respuestas:
La regresión lineal simple tiene una buena interpretación no paramétrica como la tendencia lineal promedio en todos los pares de observaciones; ver Berman 1988, "Un teorema de Jacobi y su generalización". Entonces, los datos no tienen que verse lineales para usarlos; cualquier tendencia (ampliamente) monotónica podría resumirse de esta manera.
También podrías usar la correlación de rango de Spearman ... y probablemente mucho más además.
fuente
La "cantidad de relación" entre dos variables discretasX , Y se mide formalmente por información mutua :I(X,Y) . Mientras que la covarianza / correlación es de alguna manera la cantidad de relación lineal, la información mutua es de alguna manera la cantidad de (cualquier tipo de) relación. Estoy pegando la imagen de la página de Wikipedia:
Para las variables continuas, los conceptos teóricos de la información a menudo también se definen, pero son menos manejables, quizás menos significativos. No quiero molestarme por el momento. Sigamos con variables discretas. De todos modos, tiene sentido aproximar las variables continuas por las discretas (usando cortes) especialmente en los enfoques teóricos de la información.
El problema con los conceptos teóricos de la información es a menudo su impracticabilidad. Ser capaz de aproximar la información mutua entreX y Y es lo mismo que poder encontrar una relación no lineal arbitraria entre ellos: se necesita un poder estadístico (cantidad de datos) más a menudo más allá de lo razonable: para cualquier valor posible para x , necesita muchas (digamos 1000) muestras para calcular una estimación de cada P(Y=y|X=x) . Esto no es posible en la mayoría de los problemas de aprendizaje automático o análisis estadístico. Es lógico: si permite que un modelo pueda expresar "cualquier posibilidad", entonces solo puede ser entrenado por una cantidad de datos que cubran cualquier posibilidad varias veces.
Pero tal vez este enfoque sea posible, para variables de baja dimensión, si aplica baja precisión: descomponga los dominios deX y Y en varios segmentos lo suficientemente pequeños como para que estén bien para sus datos. De todos modos, creo que esto requiere un poco de investigación.
fuente
Finalmente, la forma más general de una función inyectiva es
y puede usar una versión discreta de esa función como modelo para sus datos.
Entonces el problema se reduce a determinar lo esperadoy para regiones separadas a<x<b .
El método no es poderoso debido a la gran cantidad de grados de libertad en el modelo. Aunque, eso también es inherente al problema que desea un alto grado de libertad (y generalidad) en el tipo de funciones que pueden describir el modelo para los datos.
Para casos más específicos se pueden hacer mejoras.
fuente
La correlación de Spearman, que se mencionó en otra respuesta, encaja perfectamente. Se calcula simplemente convirtiendo los datos en rangos y luego encontrando la correlación de Pearson para los rangos. Puede detectar cualquier asociación monotónica.
También está la correlación de Kendall. La correlación de Kendall tiene una buena interpretación como (una versión reescalada de) la probabilidad de que la clasificación de casos en una variable coincida con la clasificación en otra variable. La correlación de Spearman, en cambio, es un poco opaca: ¿quién piensa en los datos en términos de relaciones lineales entre los rangos? La correlación de Kendall no es "rápida de calcular" en términos de complejidad computacional (esO(nlogn) mientras que Spearman esO(n) ), pero no requiere juicio humano para calcular y ya está implementado en una gran cantidad de software de estadísticas, y con una máquina moderna, es poco probable que la complejidad asintomática importe, excepto con los conjuntos de datos más grandes.
fuente
No está del todo claro ser lo que está tratando de medir, pero intentaré darle información que pueda ayudar. Existen medidas de correlación como el Alfa de Cronback que se pueden usar para evaluar la consistencia / relación interna entre un conjunto de variables. También podría usar cosas como modelos aditivos generales (GAM) para probar si la estimación funcional es constante. Esto implicaría que no hay relación entre sus variables. Vea la respuesta aquí para una discusión sobre esto: ¿Cómo pruebo una asociación no lineal?
fuente
Puede probar el coeficiente de información máximo . Supera a los métodos seleccionados en el documento y funciona bien en la detección de relaciones no lineales entre dos variables aleatorias.
fuente
No puedo comentar, así que tengo que publicar la respuesta. Eche un vistazo a Dynamic Time Warping, un algoritmo simple que puede detectar / comparar patrones entre dos series de tiempo, que pueden tener una granularidad incluso diferente. https://en.wikipedia.org/wiki/Dynamic_time_warping
fuente