prueba estadística para ver si la relación es lineal o no lineal

9

Tengo un conjunto de datos de ejemplo de la siguiente manera:

Volume <- seq(1,20,0.1)
var1 <- 100 
x2 <- 1000000
x3 <- 30

x4 = sqrt(x2/pi)
H = x3 - Volume
r = (x4*H)/(H + Volume)

Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r))

Power <- jitter(Power, factor = 1, amount = 0.1)
plot(Volume,Power)

ingrese la descripción de la imagen aquí

A partir de la figura, se puede sugerir que entre un cierto rango de 'Volumen' y 'Potencia' la relación es lineal, luego, cuando el 'Volumen' se vuelve relativamente pequeño, la relación se vuelve no lineal. ¿Hay alguna prueba estadística para ilustrar esto?

Con respecto a algunas de las recomendaciones que se muestran en las respuestas al PO:

El ejemplo que se muestra aquí es simplemente un ejemplo, el conjunto de datos que tengo es similar a la relación que se ve aquí, aunque más ruidosa. El análisis que he realizado hasta ahora muestra que cuando analizo un volumen de un líquido específico, la potencia de una señal aumenta drásticamente cuando hay un volumen bajo. Entonces, digamos que solo tenía un entorno donde el volumen estaba entre 15 y 20, casi se vería como una relación lineal. Sin embargo, al aumentar el rango de puntos, es decir, tener volúmenes más pequeños, vemos que la relación no es lineal en absoluto. Ahora estoy buscando algunos consejos estadísticos sobre cómo mostrar esto estadísticamente. Espero que esto tenga sentido.

KatyB
fuente
55
Hay varias cosas pasando aquí. Primero, por supuesto, una relación se verá lineal siempre que los rangos de las variables estén adecuadamente restringidos. En segundo lugar, la heterocedasticidad de los datos es una característica casi tan prominente como la relación no lineal: la dispersión es mayor en volúmenes altos y potencias bajas que en volúmenes bajos y potencias altas. De todos modos, ¿qué es exactamente lo que quieres probar? ¿La linealidad de la relación en todo el rango?
whuber
44
En realidad, me gustaría retomar el comentario sobre la heterocedasticidad: la trama da la apariencia de tal, pero es una ilusión causada por las pendientes relativamente pronunciadas en volúmenes más bajos. (El volumen en términos de poder, sin embargo, tiene una relación extremadamente heterocedástica). Una vez que determinamos que la variación en el poder no es heterocedástica, esto descarta algunos tipos de análisis (no queremos aplicar transformaciones no lineales del poder) y sugiere favorecer a otros (como los mínimos cuadrados no lineales o un modelo lineal generalizado), una vez que la no linealidad esté claramente establecida.
whuber
Ahora he agregado una breve descripción del problema en cuestión. Gracias por sus comentarios hasta ahora, estos son realmente apreciados y me están ayudando a pensar en el problema.
KatyB
¿Por qué no probar el efecto cuadrático?
AdamO
2
@Simon No utilicé ninguna prueba, pero, sin embargo, puedes ver que esto es homoscedástico al trazar el tamaño típico de los residuos contra el Volumen. Aquí hay algo de Rcódigo: plot(s <- by(cbind(Power, Volume), groups <- cut(Volume, 10), function(d) summary(lm(Power ~ Volume, data=d))$sigma), xlab="Volume range", ylab="Residual SD", ylim=c(0, max(s))); abline(h=mean(s), lty=2, col="Blue"). Muestra un tamaño residual casi constante en todo el rango.
whuber

Respuestas:

4

Esto es básicamente un problema de selección de modelo. Le animo a que seleccione un conjunto de modelos físicamente plausibles (lineal, exponencial, tal vez una relación lineal discontinua) y use el Criterio de información de Akaike o el Criterio de información bayesiano para seleccionar el mejor, teniendo en cuenta el problema de heterocedasticidad que señala @whuber.

Drew Steen
fuente
2

¿Has intentado buscar en Google esto? Una forma de hacerlo es ajustar una potencia más alta u otros términos no lineales a su modelo y probar si sus coeficientes son significativamente diferentes de 0.

Hay algunos ejemplos aquí http://www.albany.edu/~po467/EPI553/Fall_2006/regression_assumptions.pdf

En su caso, es posible que desee dividir su conjunto de datos en dos secciones para probar la no linealidad para el volumen <5 y la linealidad para el volumen> 5.

El otro problema que tiene es que sus datos son heteroscedasticos, lo que viola el supuesto de normalidad para los datos de regresión. El enlace proporcionado también proporciona ejemplos de pruebas para esto.

Simon Hayward
fuente
El enlace está roto.
Jatin
2

Sugiero usar la regresión no lineal para ajustar un modelo a todos sus datos. ¿Cuál es el punto de elegir un volumen arbitrario y ajustar un modelo a volúmenes menores que ese y otro modelo a volúmenes más grandes? ¿Hay alguna razón, más allá de la apariencia de la figura, para usar 5 como umbral agudo? ¿Realmente cree que después de un umbral de volumen particular, la curva ideal es lineal? ¿No es más probable que se acerque horizontalmente a medida que aumenta el volumen, pero nunca es bastante lineal?

Por supuesto, la selección de la herramienta de análisis debe depender de las preguntas científicas que intente responder y de su conocimiento previo del sistema.

Harvey Motulsky
fuente