¿Cómo pruebo una asociación no lineal?

37

Para la gráfica 1, puedo probar la asociación entre xey haciendo una simple correlación. trama 1

Para la gráfica 2, donde la relación es no lineal pero hay una relación clara entre x e y, ¿cómo puedo probar la asociación y etiquetar su naturaleza? parcela 2

nonlinear-regression non-independent association-measure usuario1447630
fuente

35

... la relación es no lineal pero hay una relación clara entre xey, ¿cómo puedo probar la asociación y etiquetar su naturaleza?

Una forma de hacerlo sería ajustar como una función semiparamétricamente estimada de utilizando, por ejemplo, un modelo aditivo generalizado y probar si esa estimación funcional es constante o no, lo que indicaría que no hay relación entre y . Este enfoque le libera de tener que hacer una regresión polinómica y tomar decisiones a veces arbitrarias sobre el orden del polinomio, etc. $y$ $x$ $y$ $x$

Específicamente, si tiene observaciones, , podría ajustar el modelo: $(Y_i, X_i)$

E (Y_{i} | X_{i}) = α + f (X_{i}) + ε_{i}

$E(Y_i | X_i) = \alpha + f(X_i) + \varepsilon_i$

y pruebe la hipótesis . En , puedes hacer esto usando la función. Si es su resultado y su predictor, puede escribir: $H_{0} : f(x) = 0, \ \forall x$ Rgam()yx

library(mgcv) 
g <- gam(y ~ s(x))

Escribir summary(g)te dará el resultado de la prueba de hipótesis anterior. En cuanto a caracterizar la naturaleza de la relación, esto se haría mejor con una trama. Una forma de hacerlo R(suponiendo que el código anterior ya se haya ingresado)

plot(g,scheme=2)

Si su variable de respuesta es discreta (por ejemplo, binaria), puede acomodar eso dentro de este marco ajustando un GAM logístico (en R, agregaría family=binomiala su llamada gam). Además, si tiene múltiples predictores, puede incluir múltiples términos aditivos (o términos lineales ordinarios), o ajustar funciones multivariables, por ejemplo, si tuviera predictores . La complejidad de la relación se selecciona automáticamente mediante validación cruzada si utiliza los métodos predeterminados, aunque aquí hay mucha flexibilidad; consulte el archivo de ayuda si está interesado. $f(x,z)$ x, zgam

Macro
fuente

1

x = a

$x=a$

@ user1447630 Este es un modelo para la relación. La regresión lineal polinómica o la regresión no lineal, así como los modelos aditivos, son formas de caracterizar una relación funcional. Podría haber mencionado cualquiera de esos. Pero pediste una medida de asociación, así que te di otras posibles formas de correlatioma. Por más agradable que sea la respuesta de Macro, se ajusta a una relación funcional, pero no proporciona una medida de asociación.

Michael R. Chernick

1

@Michael, no sé qué pregunta estabas leyendo, pero el OP preguntó cómo evaluar una asociación, no una medida de asociación. En cualquier caso, por agradable que sea su respuesta, (e ignorando el hecho de que requiere un conocimiento a priori bastante fuerte de dónde se produce el punto de cambio), creo que está demasiado adaptado a la trama específica en esta pregunta, en lugar de la general problema de "asociación no lineal".

Macro

3

@Michael, su interpretación ( "la pregunta era acerca de cómo generalizar el concepto de correlación .." ) y el "argumento" estadístico que usted da (por cierto, "prueba de la significación de los coeficientes y el modelo" en un modelo lineal, esto es lo mismo que probar una correlación) no tiene ningún sentido, dados los hechos, por lo que no voy a abordarlos. Pero, "... después de que le diste el tuyo, el mío no fue aceptado y el tuyo fue aceptado ... sentí que no era correcto" está haciendo campaña por tu respuesta, que solo refleja una fijación en los puntos de representación, no es nada útil para la comunidad.

Macro

55

x

$x$

y

$y$

14

$0$

$x=a$ $(x,y)$ $x < a$ $x>a$ $x$ $y$ $0$ cuando se estiman utilizando todos los datos, estas estimaciones serán grandes y de signo opuesto.

$(x,y)$

Michael R. Chernick
fuente

y = a x^{2} + b x + c

$y = ax^2 + bx + c$

a

$a$

1

Para eso, usted ajusta el modelo cuadrático usando, por ejemplo, la regresión lineal de OLS y realiza una prueba estadística estándar de que el coeficiente a es mayor que 0 (digamos una prueba t de una cola).

Michael R. Chernick

1

x

$x$

x

$x$

x^{2}

$x^2$

t

$t$

_{2}

$_2$

_{1}

$_1$

_{2}

$_2$

1

Puede probar cualquier tipo de dependencia utilizando pruebas de correlación de distancia. Consulte aquí para obtener más información sobre la correlación de distancia: comprensión de los cálculos de correlación de distancia

Y aquí el artículo original: https://arxiv.org/pdf/0803.4101.pdf

En R esto se implementa en el energypaquete con la dcor.testfunción.

PhilippPro
fuente

0

Alguien me corrige si mi comprensión es incorrecta aquí, pero una forma de tratar con variables no lineales es usar una aproximación lineal. Entonces, por ejemplo, tomar un registro de distribución exponencial debería permitirle tratar la variable como distribución normal. Luego puede usarse para resolver el problema como cualquier regresión lineal.

Akshata T
fuente

8

No creo que esto realmente responda la pregunta. Tomar registros no es lo mismo que hacer una aproximación lineal. Además, incluso si toma registros, la distribución para la cual el registro de la variable original es una variable normalmente distribuida no es la distribución exponencial sino la distribución lognormal . Sin embargo, ni la variable independiente ni la variable dependiente deben distribuirse normalmente para que la regresión lineal sea apropiada: el problema aquí es la relación entre las variables, no sus distribuciones marginales.

Silverfish

0

Solía implementar el modelo aditivo general para detectar la relación no lineal entre dos variables, pero recientemente descubrí la correlación no lineal implementada a través del nlcorpaquete en R, puede implementar este método de la misma manera que la correlación de Pearson , el coeficiente de correlación está entre 0 y 1 y no -1 y 1 como en la correlación de Pearson. Un coeficiente de correlación más alto implica la existencia de una fuerte relación no lineal. Supongamos dos series de tiempo x2y y2, la correlación no lineal entre las dos series de tiempo se prueba de la siguiente manera

install.packages("devtools") 
library(devtools)
install_github("ProcessMiner/nlcor")
library(nlcor)
c <- nlcor(x2, y2, plt = T)
c$cor.estimate
[1] 0.897205

Las dos variables parecen estar fuertemente correlacionadas a través de una relación no lineal, también puede obtener el valor p ajustado para el coeficiente de correlación

c$adjusted.p.value
[1] 0

También puedes trazar los resultados

print(c$cor.plot)

You can view this link for more details

Ameer
fuente

¿Cómo pruebo una asociación no lineal?

Respuestas: