Tengo pequeños conjuntos de datos de tamaño 40-50 puntos. Sin suponer que los datos se distribuyen normalmente, quería conocer los valores atípicos con un 90% de confianza al menos. Pensé que boxplot podría ser una buena manera de hacerlo, pero no estoy seguro.
Cualquier ayuda apreciada.
También con las implementaciones de boxplot no pude encontrar una implementación que, además de dibujar la trama, explícitamente escupe los valores atípicos.
Respuestas:
Eso se debe a que dicho algoritmo no puede existir. Necesita una distribución supuesta para poder clasificar algo como fuera del rango de valores esperados.
Incluso si asume una distribución normal, declarar los puntos de datos como valores atípicos es un negocio complicado. En general, no solo necesita una buena estimación de la distribución real, que a menudo no está disponible, sino también una buena razón teóricamente respaldada para tomar su decisión (es decir, el sujeto rompió la configuración experimental de alguna manera). Tal juicio es usualmente imposible de codificar en un algoritmo.
fuente
Esto no responde directamente a su pregunta, pero puede aprender algo mirando el
outliers
conjunto de datos en elTeachingDemos
paquete para R y trabajando a través de los ejemplos en la página de ayuda. Esto puede darle una mejor comprensión de algunos de los problemas con la detección automática de valores atípicos.fuente
R escupirá los valores atípicos como en
que dibujará el diagrama de caja y dará
fuente
2*(1-pnorm(4*qnorm(.75)))
, que vuelve[1] 0.006976603
, el valor que se informa más arriba, pero luego simular la siguiente manera:Set.seed(1); out = c();
for(i in 1:100)
x = rnorm(50)
y = boxplot(x, plot=F)
out[i] = length(y$out)>=1}
sum(out)/100
los que vuelve[1] 0.3
. Es decir, 30% de muestras conset.seed(1); out = c(); for(i in 1:100) {x = rnorm(500); y = boxplot(x, plot=F); out[i] = length(y$out)}; sum(out)/50000
da0.00738
cuál está más cerca de lo que estaba describiendoComo otros han dicho, usted ha formulado mal la pregunta en términos de confianza. Hay pruebas estadísticas para valores atípicos como la prueba de Grubbs y la prueba de relación de Dixon a las que me he referido en otra publicación. Asumen que la distribución de la población es normal, aunque la prueba de Dixon es robusta al supuesto de normalidad en muestras pequeñas. Un diagrama de caja es una buena forma informal de detectar valores atípicos en sus datos. Por lo general, los bigotes se establecen en el percentil 5 y 95 y las obsevaciones trazadas más allá de los bigotes generalmente se consideran posibles valores atípicos. Sin embargo, esto no implica pruebas estadísticas formales.
fuente