¿Métodos para medir la fuerza de relaciones arbitrarias no lineales entre dos variables?

8

¿Qué métodos existen para medir la fuerza de las relaciones arbitrarias altamente no lineales entre dos variables emparejadas? Por altamente no lineal, me refiero a las relaciones que no pueden modelarse de manera sensata o confiable mediante la regresión a un modelo conocido. Estoy particularmente interesado en las series temporales, pero imagino que cualquier cosa que funcione para datos de dos variables funcionaría aquí (si tratamos las dos series temporales como un conjunto de pares de puntos de datos)

Dos que conozco son la diferencia cuadrática media (es decir , el error cuadrático medio , tratando una serie de tiempo como el valor "esperado", y una como la observada), y la covarianza de distancia . ¿Qué otros hay?

Aclaración: Básicamente, estoy preguntando sobre la dependencia entre series, donde la correlación lineal o la correlación no lineal simple (después de log, exp, trig, otras transformaciones analíticas simples) realmente no significa mucho.

nada101
fuente
Si se enfoca en el pronóstico, debe ser consciente de la diferencia entre un buen ajuste del modelo y la capacidad predictiva derivada incluso de un modelo lineal multivariado simple. Publiqué una pregunta sobre un tema relacionado aquí: stats.stackexchange.com/questions/25381/… .
Robert Kubrick
Los modelos no lineales son un área extensa. Sospecho que también podría estar interesado en el reconocimiento de patrones, que es primo cercano del modelado no lineal cuando se aplica a la predicción. ¿Puedes hacer la pregunta más específica, tal vez con un ejemplo de tu problema?
Robert Kubrick
1
Aparentemente no hay una respuesta simple :) amazon.com/Nonlinear-Series-Analysis-Holger-Kantz/dp/0521529026
Robert Kubrick
1
No está del todo claro ser lo que está tratando de medir, pero intentaré darle información que pueda ayudar. Existen medidas de correlación como el Alfa de Cronback que se pueden usar para evaluar la consistencia / relación interna entre un conjunto de variables. También podría usar cosas como modelos aditivos generales (GAM) para probar si la estimación funcional es constante. Esto implicaría que no hay relación entre sus variables. Vea la respuesta aquí para una discusión sobre esto: stats.stackexchange.com/questions/35893/…
StatsStudent
1
@StatsStudent gracias por el enlace, es realmente útil. Creo que es la mejor respuesta hasta ahora, si la cambia a una respuesta y no aparece una mejor hasta la fecha límite, le otorgaré los puntos.
Allen Wang

Respuestas:

2

La regresión lineal simple tiene una buena interpretación no paramétrica como la tendencia lineal promedio en todos los pares de observaciones; ver Berman 1988, "Un teorema de Jacobi y su generalización". Entonces, los datos no tienen que verse lineales para usarlos; cualquier tendencia (ampliamente) monotónica podría resumirse de esta manera.

También podrías usar la correlación de rango de Spearman ... y probablemente mucho más además.

invitado
fuente
Gracias, pero soy consciente de eso, y eso específicamente no es lo que estaba pidiendo (dado que una línea recta es más o menos el modelo más simple posible, eso está implícito en mi pregunta). He aclarado la pregunta.
naught101
2

La "cantidad de relación" entre dos variables discretas X, Yse mide formalmente por información mutua :I(X,Y). Mientras que la covarianza / correlación es de alguna manera la cantidad de relación lineal, la información mutua es de alguna manera la cantidad de (cualquier tipo de) relación. Estoy pegando la imagen de la página de Wikipedia:

ingrese la descripción de la imagen aquí

Para las variables continuas, los conceptos teóricos de la información a menudo también se definen, pero son menos manejables, quizás menos significativos. No quiero molestarme por el momento. Sigamos con variables discretas. De todos modos, tiene sentido aproximar las variables continuas por las discretas (usando cortes) especialmente en los enfoques teóricos de la información.

El problema con los conceptos teóricos de la información es a menudo su impracticabilidad. Ser capaz de aproximar la información mutua entreX y Y es lo mismo que poder encontrar una relación no lineal arbitraria entre ellos: se necesita un poder estadístico (cantidad de datos) más a menudo más allá de lo razonable: para cualquier valor posible para x, necesita muchas (digamos 1000) muestras para calcular una estimación de cada P(Y=y|X=x). Esto no es posible en la mayoría de los problemas de aprendizaje automático o análisis estadístico. Es lógico: si permite que un modelo pueda expresar "cualquier posibilidad", entonces solo puede ser entrenado por una cantidad de datos que cubran cualquier posibilidad varias veces.

Pero tal vez este enfoque sea posible, para variables de baja dimensión, si aplica baja precisión: descomponga los dominios de X y Yen varios segmentos lo suficientemente pequeños como para que estén bien para sus datos. De todos modos, creo que esto requiere un poco de investigación.

Benoit Sanchez
fuente
1

Finalmente, la forma más general de una función inyectiva es

f(x)=y

y puede usar una versión discreta de esa función como modelo para sus datos.

Entonces el problema se reduce a determinar lo esperado y para regiones separadas a<x<b.

El método no es poderoso debido a la gran cantidad de grados de libertad en el modelo. Aunque, eso también es inherente al problema que desea un alto grado de libertad (y generalidad) en el tipo de funciones que pueden describir el modelo para los datos.

Para casos más específicos se pueden hacer mejoras.

Sexto Empírico
fuente
Mi modelo propuesto fue extremadamente general. También puede usar splines, funciones lineales por partes o cualquiera de esos tipos de funciones de ajuste generales.
Sextus Empiricus
1

Debe ser un método rápido de calcular, similar a la correlación, pero que pueda detectar relaciones cuadráticas, por ejemplo.

La correlación de Spearman, que se mencionó en otra respuesta, encaja perfectamente. Se calcula simplemente convirtiendo los datos en rangos y luego encontrando la correlación de Pearson para los rangos. Puede detectar cualquier asociación monotónica.

También está la correlación de Kendall. La correlación de Kendall tiene una buena interpretación como (una versión reescalada de) la probabilidad de que la clasificación de casos en una variable coincida con la clasificación en otra variable. La correlación de Spearman, en cambio, es un poco opaca: ¿quién piensa en los datos en términos de relaciones lineales entre los rangos? La correlación de Kendall no es "rápida de calcular" en términos de complejidad computacional (esO(nlogn)mientras que Spearman esO(n)), pero no requiere juicio humano para calcular y ya está implementado en una gran cantidad de software de estadísticas, y con una máquina moderna, es poco probable que la complejidad asintomática importe, excepto con los conjuntos de datos más grandes.

Kodiólogo
fuente
Si se usa un orden de comparación para calcular los rangos, entonces Spearman también seránlog(n).
GeoMatt22
@ GeoMatt22 Ah, parece que la respuesta cs.stackexchange a la que me vinculé no tuvo en cuenta el paso de clasificación. Entonces, la correlación de Spearman probablemente no sea más rápida que la correlación de Kendall, después de todo.
Kodiólogo
1

No está del todo claro ser lo que está tratando de medir, pero intentaré darle información que pueda ayudar. Existen medidas de correlación como el Alfa de Cronback que se pueden usar para evaluar la consistencia / relación interna entre un conjunto de variables. También podría usar cosas como modelos aditivos generales (GAM) para probar si la estimación funcional es constante. Esto implicaría que no hay relación entre sus variables. Vea la respuesta aquí para una discusión sobre esto: ¿Cómo pruebo una asociación no lineal?

EstadísticasEstudiante
fuente
0

No puedo comentar, así que tengo que publicar la respuesta. Eche un vistazo a Dynamic Time Warping, un algoritmo simple que puede detectar / comparar patrones entre dos series de tiempo, que pueden tener una granularidad incluso diferente. https://en.wikipedia.org/wiki/Dynamic_time_warping

reicja
fuente
No busco exactamente series temporales, puede estar entre dos conjuntos de variables.
Allen Wang
2
Ya veo, entonces DTW no es exactamente lo que necesitas. ¿No podría aplicarse algún enfoque de información mutua?
reicja