Tengo un conjunto de datos de ejemplo de la siguiente manera:
Volume <- seq(1,20,0.1)
var1 <- 100
x2 <- 1000000
x3 <- 30
x4 = sqrt(x2/pi)
H = x3 - Volume
r = (x4*H)/(H + Volume)
Power = (var1*x2)/(100*(pi*Volume/3)*(x4*x4 + x4*r + r*r))
Power <- jitter(Power, factor = 1, amount = 0.1)
plot(Volume,Power)
A partir de la figura, se puede sugerir que entre un cierto rango de 'Volumen' y 'Potencia' la relación es lineal, luego, cuando el 'Volumen' se vuelve relativamente pequeño, la relación se vuelve no lineal. ¿Hay alguna prueba estadística para ilustrar esto?
Con respecto a algunas de las recomendaciones que se muestran en las respuestas al PO:
El ejemplo que se muestra aquí es simplemente un ejemplo, el conjunto de datos que tengo es similar a la relación que se ve aquí, aunque más ruidosa. El análisis que he realizado hasta ahora muestra que cuando analizo un volumen de un líquido específico, la potencia de una señal aumenta drásticamente cuando hay un volumen bajo. Entonces, digamos que solo tenía un entorno donde el volumen estaba entre 15 y 20, casi se vería como una relación lineal. Sin embargo, al aumentar el rango de puntos, es decir, tener volúmenes más pequeños, vemos que la relación no es lineal en absoluto. Ahora estoy buscando algunos consejos estadísticos sobre cómo mostrar esto estadísticamente. Espero que esto tenga sentido.
R
código:plot(s <- by(cbind(Power, Volume), groups <- cut(Volume, 10), function(d) summary(lm(Power ~ Volume, data=d))$sigma), xlab="Volume range", ylab="Residual SD", ylim=c(0, max(s))); abline(h=mean(s), lty=2, col="Blue")
. Muestra un tamaño residual casi constante en todo el rango.Respuestas:
Esto es básicamente un problema de selección de modelo. Le animo a que seleccione un conjunto de modelos físicamente plausibles (lineal, exponencial, tal vez una relación lineal discontinua) y use el Criterio de información de Akaike o el Criterio de información bayesiano para seleccionar el mejor, teniendo en cuenta el problema de heterocedasticidad que señala @whuber.
fuente
¿Has intentado buscar en Google esto? Una forma de hacerlo es ajustar una potencia más alta u otros términos no lineales a su modelo y probar si sus coeficientes son significativamente diferentes de 0.
Hay algunos ejemplos aquí http://www.albany.edu/~po467/EPI553/Fall_2006/regression_assumptions.pdf
En su caso, es posible que desee dividir su conjunto de datos en dos secciones para probar la no linealidad para el volumen <5 y la linealidad para el volumen> 5.
El otro problema que tiene es que sus datos son heteroscedasticos, lo que viola el supuesto de normalidad para los datos de regresión. El enlace proporcionado también proporciona ejemplos de pruebas para esto.
fuente
Sugiero usar la regresión no lineal para ajustar un modelo a todos sus datos. ¿Cuál es el punto de elegir un volumen arbitrario y ajustar un modelo a volúmenes menores que ese y otro modelo a volúmenes más grandes? ¿Hay alguna razón, más allá de la apariencia de la figura, para usar 5 como umbral agudo? ¿Realmente cree que después de un umbral de volumen particular, la curva ideal es lineal? ¿No es más probable que se acerque horizontalmente a medida que aumenta el volumen, pero nunca es bastante lineal?
Por supuesto, la selección de la herramienta de análisis debe depender de las preguntas científicas que intente responder y de su conocimiento previo del sistema.
fuente