La gente a menudo habla de tratar con valores atípicos en las estadísticas. Lo que me molesta de esto es que, por lo que puedo decir, la definición de un valor atípico es completamente subjetiva. Por ejemplo, si la distribución verdadera de alguna variable aleatoria es muy pesada o bimodal, cualquier visualización estándar o estadística resumida para detectar valores atípicos eliminará incorrectamente partes de la distribución de la que desea muestrear. ¿Cuál es una definición rigurosa de un valor atípico, si existe, y cómo se pueden tratar los valores atípicos sin introducir cantidades irracionales de subjetividad en un análisis?
outliers
definition
dsimcha
fuente
fuente
rigorous definition of an outlier
momento en el que puedas definir deunreasonable amounts of subjectivity
manera objetiva ;-), graciasRespuestas:
Siempre que sus datos provengan de una distribución conocida con propiedades conocidas, puede definir rigurosamente un valor atípico como un evento que es muy poco probable que haya sido generado por el proceso observado (si considera que "demasiado poco probable" no es riguroso, entonces todas las pruebas de hipótesis son).
Sin embargo, este enfoque es problemático en dos niveles: asume que los datos provienen de una distribución conocida con propiedades conocidas, y conlleva el riesgo de que los valores atípicos sean vistos como puntos de datos que algunas hadas mágicas introdujeron de contrabando en su conjunto de datos.
En ausencia de faeries de datos mágicos, todos los datos provienen de su experimento y, por lo tanto, en realidad no es posible tener valores atípicos, solo resultados extraños. Estos pueden provenir de errores de grabación (por ejemplo, una casa de 400000 habitaciones por 4 dólares), problemas de medición sistemática (el algoritmo de análisis de imagen informa áreas enormes si el objeto está demasiado cerca del borde) problemas experimentales (a veces, los cristales precipitan fuera de la solución, que dan una señal muy alta), o características de su sistema (una célula a veces se puede dividir en tres en lugar de dos), pero también pueden ser el resultado de un mecanismo que nadie ha considerado nunca porque es raro y está haciendo una investigación, lo que significa que algunas de las cosas que haces simplemente aún no se conocen.
Idealmente, se toma el tiempo de investigar cada caso atípico y solo lo elimina de su conjunto de datos una vez que comprende por qué no se ajusta a su modelo. Esto lleva mucho tiempo y es subjetivo, ya que las razones dependen en gran medida del experimento, pero la alternativa es peor: si no comprende de dónde provienen los valores atípicos, tiene la opción de dejar que los valores atípicos "estropeen" sus resultados, o definir un enfoque "matemáticamente riguroso" para ocultar su falta de comprensión. En otras palabras, al perseguir la "rigurosidad matemática", eliges entre no obtener un efecto significativo y no entrar al cielo.
EDITAR
Si todo lo que tiene es una lista de números sin saber de dónde provienen, no tiene forma de saber si algún punto de datos es un valor atípico, porque siempre puede suponer una distribución donde todos los datos son intrínsecos.
fuente
Tiene razón en que eliminar los valores atípicos puede parecer un ejercicio subjetivo, pero eso no significa que esté mal. La necesidad compulsiva de tener siempre una razón matemática rigurosa para cada decisión con respecto a su análisis de datos a menudo es solo un delgado velo de rigor artificial sobre lo que resulta ser un ejercicio subjetivo de todos modos. Esto es especialmente cierto si desea aplicar la misma justificación matemática a cada situación que encuentre. (Si hubiera reglas matemáticas claras a prueba de balas para todo, entonces no necesitaría un estadístico).
Por ejemplo, en su situación de distribución de cola larga, no hay un método garantizado para decidir entre los números si tiene una distribución subyacente de intereses con valores atípicos o dos distribuciones subyacentes de intereses con valores atípicos que son parte de solo uno de ellos. O, Dios no lo quiera, solo la distribución real de datos.
Cuantos más datos recopile, más ingresará a las regiones de baja probabilidad de una distribución. Si recolecta 20 muestras, es muy poco probable que obtenga un valor con un puntaje z de 3.5. Si recolecta 10,000 muestras, es muy probable que obtenga una y es una parte natural de la distribución. Dado lo anterior, ¿cómo decides solo porque algo es extremo para excluirlo?
Seleccionar los mejores métodos en general para el análisis es a menudo subjetivo. Si es irrazonablemente subjetivo depende de la explicación de la decisión y del valor atípico.
fuente
No creo que sea posible definir un valor atípico sin asumir un modelo del proceso subyacente que da origen a los datos. Sin ese modelo, no tenemos un marco de referencia para decidir si los datos son anómalos o "incorrectos". La definición de un valor atípico que he encontrado útil es que un valor atípico es una observación (u observaciones) que no se puede conciliar con un modelo que de otro modo funciona bien.
fuente
Hay muchas respuestas excelentes aquí. Sin embargo, quiero señalar que se están confundiendo dos preguntas. La primera es, '¿qué es un valor atípico?', Y más específicamente para dar una "definición rigurosa" de tal. Esto es simple:
La segunda pregunta es '¿cómo sé / detecto que un punto de datos es un valor atípico?' Lamentablemente, esto es muy difícil. Sin embargo, las respuestas dadas aquí (que realmente son muy buenas y que no puedo mejorar) serán bastante útiles con esa tarea.
fuente
Definición 1: Como ya se mencionó, un valor atípico en un grupo de datos que refleja el mismo proceso (por ejemplo, el proceso A) es una observación (o un conjunto de observaciones) que es poco probable que sea el resultado del proceso A.
Esta definición ciertamente implica una estimación de la función de probabilidad del proceso A (de ahí un modelo) y establecer qué significa poco probable (es decir, decidir dónde parar ...). Esta definición está en la raíz de la respuesta que di aquí . Está más relacionado con las ideas de prueba de hipótesis de significación o bondad de ajuste .
Definición 2 Un valor atípico es una observación en un grupo de observaciones tal manera que al modelar el grupo de observación con un modelo dado la precisión es mayor si se elimina y se trata por separado (con una mezcla, en el espíritu de lo que menciono aquí) )G xx G x
Esta definición implica un "modelo dado" y una medida de precisión. Creo que esta definición es más desde el punto de vista práctico y está más en el origen de los valores atípicos. En Origin, la detección de valores atípicos era una herramienta para estadísticas sólidas .
Obviamente, estas definiciones se pueden hacer muy similares si comprende que calcular la probabilidad en la primera definición implica el modelado y el cálculo de una puntuación :)
fuente
Un valor atípico es un punto de datos que es inconveniente para mí, dada mi comprensión actual del proceso que genera estos datos.
Creo que esta definición es tan rigurosa como se puede hacer.
fuente
defina un valor atípico como miembro de ese conjunto mínimo de elementos que deben eliminarse de un conjunto de datos de tamaño n para asegurar el cumplimiento del 100% con las pruebas RUM realizadas al 95% de nivel de confianza en todos los subconjuntos únicos (2 ^ n -1) datos. Consulte el texto de Karian y Dudewicz sobre los datos de ajuste a los archivos PDF utilizando R (septiembre de 2010) para la definición de la prueba RUM.
fuente
Los valores atípicos son importantes solo en el reino frecuentista. Si un único punto de datos agrega sesgo a su modelo, que está definido por una distribución subyacente predeterminada por su teoría, entonces es un valor atípico para ese modelo. La subjetividad radica en el hecho de que si su teoría plantea un modelo diferente, entonces puede tener un conjunto diferente de puntos como valores atípicos.
fuente