Estoy investigando el campo de la respuesta funcional de los ácaros. Me gustaría hacer una regresión para estimar los parámetros (velocidad de ataque y tiempo de manejo) de la función Rogers tipo II. Tengo un conjunto de datos de medidas. ¿Cómo puedo determinar mejor los valores atípicos?
Para mi regresión, uso el siguiente script en R (una regresión no lineal): (el conjunto de fechas es un simple archivo de texto de 2 columnas llamado data.txt
archivo con N0
valores (número de presas iniciales) y FR
valores (número de presas comidas durante 24 horas):
library("nlstools")
dat <- read.delim("C:/data.txt")
#Rogers type II model
a <- c(0,50)
b <- c(0,40)
plot(FR~N0,main="Rogers II normaal",xlim=a,ylim=b,xlab="N0",ylab="FR")
rogers.predII <- function(N0,a,h,T) {N0 - lambertW(a*h*N0*exp(-a*(T-h*N0)))/(a*h)}
params1 <- list(attackR3_N=0.04,Th3_N=1.46)
RogersII_N <- nls(FR~rogers.predII(N0,attackR3_N,Th3_N,T=24),start=params1,data=dat,control=list(maxiter= 10000))
hatRIIN <- predict(RogersII_N)
lines(spline(N0,hatRIIN))
summary(RogersII_N)$parameters
Para trazar los gráficos de los residuos calssic utilizo el siguiente script:
res <- nlsResiduals (RogersII_N)
plot (res, type = 0)
hist (res$resi1,main="histogram residuals")
qqnorm (res$resi1,main="QQ residuals")
hist (res$resi2,main="histogram normalised residuals")
qqnorm (res$resi2,main="QQ normalised residuals")
par(mfrow=c(1,1))
boxplot (res$resi1,main="boxplot residuals")
boxplot (res$resi2,main="boxplot normalised residuals")
Preguntas
- ¿Cómo puedo determinar mejor qué puntos de datos son atípicos?
- ¿Hay pruebas que pueda usar en R que sean objetivas y me muestren qué puntos de datos son atípicos?
fuente
Para los valores atípicos univariantes, existe la prueba de relación de Dixon y la prueba de Grubbs, asumiendo la normalidad. Para probar un valor atípico, debe asumir una distribución de población porque está tratando de demostrar que el valor observado es extremo o inusual para provenir de la distribución supuesta. Tengo un artículo en el American Statistician en 1982 al que quizás haya hecho referencia aquí antes y que muestra que la prueba de relación de Dixon puede usarse en muestras pequeñas incluso para algunas distribuciones no normales. Chernick, MR (1982) "Una nota sobre la robustez de la relación de Dixon en muestras pequeñas" American Statistician p 140. Para valores atípicos y valores atípicos multivariados en series de tiempo, las funciones de influencia para las estimaciones de parámetros son medidas útiles para detectar valores atípicos de manera informal (no sé de pruebas formales construidas para ellos, aunque tales pruebas son posibles)."Valores atípicos en datos estadísticos" para el tratamiento detallado de los métodos de detección de valores atípicos.
fuente
Ver http://www.waset.org/journals/waset/v36/v36-45.pdf , "Sobre la detección atípica en la regresión no lineal" [ sic ].
Resumen
fuente
Un valor atípico es un punto que está "demasiado lejos" de "alguna línea de base". ¡El truco es definir ambas frases! Con la regresión no lineal, uno no puede simplemente usar métodos univariados para ver si un valor atípico está "demasiado lejos" de la curva de mejor ajuste, porque el valor atípico puede tener una enorme influencia en la curva misma.
Ron Brown y yo desarrollamos un método único (que llamamos ROUT: regresión robusta y eliminación de valores atípicos) para detectar valores atípicos con regresión no lineal, sin dejar que los valores atípicos afecten demasiado la curva. Primero ajuste los datos con un método de regresión robusto donde los valores atípicos tienen poca influencia. Eso forma la línea de base. Luego, use las ideas de la tasa de descubrimiento falso (FDR) para definir cuándo un punto está "demasiado lejos" de esa línea de base y, por lo tanto, es un valor atípico. Finalmente, elimina los valores atípicos identificados y ajusta los puntos restantes de manera convencional.
El método se publica en una revista de acceso abierto: Motulsky HJ y Brown RE, Detección de valores atípicos al ajustar datos con regresión no lineal: un nuevo método basado en una regresión no lineal robusta y la tasa de descubrimiento falso , BMC Bioinformatics 2006, 7: 123. Aquí está el resumen:
No se ha implementado (hasta donde yo sé) en R. Pero lo implementamos en GraphPad Prism. y proporcione una explicación simple en la ayuda de Prism .
fuente
Tu pregunta es demasiado general. No existe un mejor método para excluir los "valores atípicos".
Tenías que conocer algunas propiedades en los "valores atípicos". o no sabes qué método es el mejor. Después de decidir qué método desea utilizar, debe calibrar los parámetros del método con cuidado.
fuente