¿Está bien eliminar los valores atípicos de los datos?

33

Busqué una manera de eliminar los valores atípicos de un conjunto de datos y encontré esta pregunta .

Sin embargo, en algunos de los comentarios y respuestas a esta pregunta, las personas mencionaron que es una mala práctica eliminar los valores atípicos de los datos.

En mi conjunto de datos tengo varios valores atípicos que muy probablemente se deban a errores de medición. Incluso si algunos de ellos no lo son, no tengo forma de verificarlo caso por caso, porque hay demasiados puntos de datos. ¿Es estadísticamente válido que simplemente eliminar los valores atípicos? O, si no, ¿cuál podría ser otra solución?

Si solo dejo esos puntos allí, influyen, por ejemplo, en la media de una manera que no refleja la realidad (porque la mayoría de ellos son errores de todos modos).

EDITAR: estoy trabajando con datos de conductancia de la piel. La mayoría de los valores extremos se deben a artefactos como alguien tirando de los cables.

EDIT2: mi interés principal en analizar los datos es determinar si hay una diferencia entre dos grupos

Sininho
fuente
3
¿Y qué es lo que quieres hacer? Resumen de datos? Análisis predictivo? ¿Visualización de datos? ¿Prueba de que hay (no) diferencia significativa entre dos grupos? Como con toda la limpieza de datos, no hay una respuesta general.
Piotr Migdal
55
Soy un ingeniero que trabaja con muchas estadísticas. Eso fue un descargo de responsabilidad y una confesión que significa que tengo que entregar productos. Solo se nos permite eliminar puntos "malos" totalmente atribuidos. ¿Puedes probar que fue de alguien tirando de un cable? Si obtiene varias medidas intencionales, puede vincular y agrupar allí. Luego puede dividir los datos en el clúster (pull vs non-pull) y ya no se trata de valores atípicos. Si no puede probar cuál es la causa raíz, debe (debe) retenerla. Habla de variación, y eso es una gran parte del análisis. No puedes deshacerte de él si no te gusta.
EngrStudent - Restablecer Monica
44
Creo que comienzas por el final equivocado. La primera pregunta es, ¿cómo identifica los valores atípicos en primer lugar?
user603
55
En lugar de la eliminación arbitraria de valores atípicos identificados arbitrariamente, puede ser mejor considerar algo como "dado que tengo contaminación por problemas como personas que tiran de cables, ¿qué metodologías puedo usar que no se vean gravemente afectadas por dicha contaminación?"
Glen_b -Reinstala Monica

Respuestas:

26

No recomiendo excluir ningún valor atípico en el análisis principal (a menos que esté realmente seguro de que están equivocados). Sin embargo, puede hacerlo en un análisis de sensibilidad y comparar los resultados de los dos análisis. En ciencia, a menudo descubres cosas nuevas precisamente cuando te enfocas en tales valores atípicos.

Para más detalles, solo piense en el descubrimiento seminal de la penicilina por parte de Fleming, basado en la contaminación accidental de sus experimentos con un moho:

http://www.abpischools.org.uk/page/modules/infectiousdiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1

Al observar el pasado cercano o el presente, la detección de valores atípicos a menudo se usa para guiar la innovación en ciencias biomédicas. Consulte, por ejemplo, los siguientes artículos (con algunos códigos R adecuados):

http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-article-a2599-abstract?article_id=2599

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678

Finalmente, si tiene motivos razonables para excluir algunos datos, puede hacerlo, preferiblemente en un análisis de sensibilidad, y no en el primario. Por ejemplo, podría excluir todos los valores que no sean biológicamente plausibles (como una temperatura de 48 grados Celsius en un paciente séptico). Del mismo modo, puede excluir todas las primeras y últimas mediciones para un paciente determinado, para minimizar los artefactos de movimiento. Sin embargo, tenga en cuenta que si hace esto post-hoc (no se basa en un criterio preespecificado), esto corre el riesgo de un masaje de datos.

Joe_74
fuente
55
De acuerdo, pero encuentro esta respuesta de alguna manera breve para votar. ¿Tal vez podría proporcionar un ejemplo trabajado o mostrar por qué y cómo se pueden descubrir cosas nuevas al enfocarse en los valores atípicos? Esto puede no ser tan obvio a primera vista.
Tim
26

Una opción es excluir los valores atípicos, pero en mi humilde opinión, eso es algo que solo debe hacer si puede argumentar (con casi certeza) por qué tales puntos no son válidos (por ejemplo, el equipo de medición se descompuso, el método de medición no era confiable por alguna razón, ...). Por ejemplo, en las mediciones de dominio de frecuencia, DC a menudo se descarta ya que muchos términos diferentes contribuyen a DC, a menudo sin relación con el fenómeno que está tratando de observar.

El problema con la eliminación de valores atípicos es que para determinar qué puntos son valores atípicos, debe tener un buen modelo de lo que es o no son "buenos datos". Si no está seguro sobre el modelo (qué factores deben incluirse, qué estructura tiene el modelo, cuáles son los supuestos del ruido, ...), entonces no puede estar seguro de sus valores atípicos. Esos valores atípicos pueden ser solo muestras que intentan decirle que su modelo está equivocado. En otras palabras: eliminar los valores atípicos reforzará su modelo (¡incorrecto!), En lugar de permitirle obtener nuevas ideas.

Otra opción es utilizar estadísticas robustas. Por ejemplo, la media y la desviación estándar son sensibles a los valores atípicos, otras métricas de "ubicación" y "propagación" son más sólidas. Por ejemplo, en lugar de la media, use la mediana. En lugar de la desviación estándar, use el rango intercuartil. En lugar de la regresión estándar de mínimos cuadrados, podría usar una regresión robusta. Todos esos métodos robustos restan énfasis a los valores atípicos de una forma u otra, pero generalmente no eliminan los datos atípicos por completo (es decir, algo bueno).

Egon
fuente
55
Gran respuesta. La mayoría de las personas no se dan cuenta de que no todas las técnicas son adecuadas para cada tipo de datos . Concentrarse en la media de los datos con valores atípicos es uno de los resultados desafortunados. Cuantas más llamadas de atención reciban, de respuestas como esta, mejor para todos.
rumtscho
16

Pensé que agregaría una historia de advertencia sobre la eliminación de valores atípicos:

¿Recuerdas el problema con el agujero en la capa de ozono polar? Hubo un satélite que se puso en órbita sobre el poste específicamente para medir la concentración de ozono. Durante algunos años, los datos postprocesados ​​del satélite informaron que el ozono polar estaba presente a niveles normales, aunque otras fuentes mostraron claramente que faltaba el ozono. Finalmente, alguien volvió a revisar el software del satélite. Resultó que alguien había escrito el código para verificar si la medición sin procesar estaba dentro de un rango esperado sobre el nivel histórico típico, y para asumir que cualquier medición fuera del rango era solo un 'pico' de instrumento (es decir, un valor atípico), auto- corrigiendo el valor . Afortunadamente, también habían registrado las mediciones en bruto; Al revisarlos vieron que el agujero había sido reportado todo el tiempo.

PMar
fuente
12
Sería bueno incluir una referencia al incidente : ¿Por qué no habían descubierto el fenómeno antes? Desafortunadamente, el software de análisis de datos TOMS había sido programado para marcar y reservar puntos de datos que se desviaban mucho de las mediciones esperadas, por lo que las mediciones iniciales que deberían haber activado las alarmas simplemente se pasaron por alto. En resumen, el equipo de TOMS no pudo detectar el agotamiento del ozono años antes porque era mucho más grave de lo que esperaban los científicos.
Johnny
3
Esta es una gran historia. y uno muy repetido, pero para mí math.uni-augsburg.de/stochastik/pukelsheim/1990c.pdf lo identifica convincentemente como un mito basado en un malentendido. Tenga en cuenta que, dado que hay dos polos, "la capa de ozono polar" necesita reescribirse.
Nick Cox
3
Ver también el relato autorizado Christie. M. 2001. La capa de ozono Una filosofía de la perspectiva de la ciencia. Cambridge: Cambridge UP
Nick Cox
7

'Outlier' es un término conveniente para recopilar datos juntos que no se ajustan a lo que espera que se vea su proceso, para eliminarlo del análisis.

Sugeriría nunca (advertencia más adelante) eliminar los valores atípicos. Mi experiencia es el control de procesos estadísticos, por lo que a menudo me ocupo de grandes volúmenes de datos de series temporales generados automáticamente que se procesan utilizando un gráfico de ejecución / diagrama de caja móvil, etc., dependiendo de los datos y la distribución.

Lo que sucede con los valores atípicos es que siempre proporcionarán información sobre su "proceso". A menudo, lo que estás pensando como un proceso es en realidad muchos procesos y es mucho más complejo de lo que crees.

Usando el ejemplo en su pregunta, sugeriría que podría haber una serie de 'procesos'. habrá variación debido a ...

  • muestras tomadas por un dispositivo de conductancia
  • muestras tomadas entre dispositivos de conductancia
  • cuando el sujeto quitó una sonda
  • cuando el sujeto se movió
  • diferencias dentro de la piel de un sujeto en su cuerpo o entre diferentes días de muestreo (cabello, humedad, aceite, etc.)
  • diferencias entre sujetos
  • La formación de la persona que toma las medidas y las variaciones entre el personal.

Todos estos procesos producirán una variación adicional en los datos y probablemente moverán la media y cambiarán la forma de la distribución. Muchos de estos no podrá separarlos en procesos distintos.

Entonces, yendo a la idea de eliminar puntos de datos como 'valores atípicos' ... solo eliminaría puntos de datos, cuando definitivamente puedo atribuirlos a un 'proceso' particular que no quiero incluir en mi análisis. Luego debe asegurarse de que los motivos de no inclusión se registren como parte de su análisis, por lo que es obvio. No asuma la atribución, esa es la clave para tomar notas adicionales a través de la observación durante la recopilación de datos.

Desafiaría su afirmación "porque la mayoría de ellos son errores de todos modos", ya que no son errores, sino solo parte de un proceso diferente que ha identificado en sus mediciones como diferente.

En su ejemplo, creo que es razonable excluir puntos de datos que puede atribuir a un proceso separado que no desea analizar.

Marcus D
fuente
6

Si está eliminando valores atípicos, en la mayoría de las situaciones debe documentar que lo está haciendo y por qué. Si se trata de un artículo científico, o para fines regulatorios, esto podría resultar en que sus estadísticas finales sean descontadas y / o rechazadas.

La mejor solución es identificar cuándo cree que está obteniendo datos incorrectos (por ejemplo, cuando la gente tira de los cables), luego identificar cuándo las personas están tirando de los cables y extraer los datos por ese motivo. Esto probablemente también dará como resultado que se eliminen algunos puntos de datos "buenos", pero ahora tiene una razón "real" para etiquetar y descontar esos puntos de datos al final de la recopilación en lugar de al final del análisis. Mientras lo haga de forma limpia y transparente, es mucho más probable que sea aceptable para terceros. Si elimina los puntos de datos relacionados con los cables extraídos, y aún obtiene valores atípicos, entonces la conclusión probable es que los cables extraídos no son el (único) problema: el problema adicional podría ser con el diseño de su experimento o su teoría.

Uno de los primeros experimentos que tuvo mi madre cuando regresó a la universidad para terminar su licenciatura fue uno en el que a los estudiantes se les dio una teoría 'mala' sobre cómo funcionaba un proceso, y luego se les dijo que realizaran un experimento. Los estudiantes que eliminaron o modificaron los puntos de datos 'malos' resultantes reprobaron la tarea. Los que informaron correctamente que sus datos estaban en desacuerdo con los resultados predichos por la teoría (la mala), aprobaron. El objetivo de la tarea era enseñar a los estudiantes a no "arreglar" (falsificar) sus datos cuando no era lo que se esperaba.

Resumen: si está generando datos incorrectos, repare su experimento, no los datos.

darkonc
fuente
5

Es un dilema moral seguro. Por un lado, ¿por qué debería dejar que algunos puntos de datos sospechosos arruinen el ajuste de su modelo a la mayor parte de los datos? Por otro lado, eliminar observaciones que no concuerdan con el concepto de realidad de su modelo es una especie de censura. Para el punto de @ Egon, esos valores atípicos podrían estar tratando de decirte algo sobre esa realidad.

En una presentación del estadístico Steve MacEachern, definió los valores atípicos como "[no representativos del fenómeno en estudio]". Bajo ese punto de vista, si considera que estos puntos de datos sospechosos no son representativos del fenómeno de conductancia de la piel que está tratando de estudiar , tal vez no pertenecen al análisis. O si se les permite quedarse, se debe usar un método que limite su influencia. En esa misma presentación, MacEachern dio ejemplos de métodos robustos, y recuerdo que, en esos pocos ejemplos, los métodos clásicos con los valores atípicos eliminados siempre coincidieron con los análisis robustos con los valores atípicos aún incluidos. Personalmente, tiendo a trabajar con las técnicas clásicas con las que me siento más cómodo y vivo con la incertidumbre moral de la eliminación atípica.

Ben Ogorek
fuente
8
En Box, Hunter & Hunter: "Estadísticas para experimentadores" dicen que, en la industria química, los valores atípicos a menudo han dado lugar a nuevas patentes . ¿Quieres tirar tu nueva patente?
kjetil b halvorsen
2
No, no quiero perder ninguna patente. Pero tampoco quiero girar doce ciclos tratando de hacer que mi modelo acomode "a alguien tirando de los cables". Es casi seguro que no es el fenómeno en estudio. Me gusta la idea de valores atípicos como oportunidades, y una cosa que se puede decir para la eliminación directa es que al menos el código proporcionará documentación de esas eliminaciones, mientras que en métodos robustos los valores atípicos coexisten con los otros puntos.
Ben Ogorek
2
Tiene razón en que las circunstancias específicas deben tenerse en cuenta. Lo que no debe hacerse es aplicar algunas "reglas" libres de contexto para el rechazo de valores atípicos. No existen tales buenas reglas.
kjetil b halvorsen
1
Mi punto favorito sobre el poder del contexto se ilustra con la pregunta "¿Son saludables las barras Snickers?" Bueno, si te has perdido en el bosque durante tres días y acabas de encontrar algunos en el suelo, resulta que son bastante saludables después de todo. Siento que las respuestas populares aquí nos dicen: "Nunca comas una barra de Snickers, a menos que estés absolutamente seguro de que morirás si no lo haces".
Ben Ogorek
0

Si llevo a cabo una muestra aleatoria de 100 personas, y una de esas personas es Bill Gates, entonces, por lo que puedo decir, Bill Gates es representativo de 1/100 de la población.

Una media recortada me dice que las ganancias promedio de la lotería son $ 0.

AdamO
fuente
Nada anormal, una media recortada no es adecuada para distribuciones sesgadas.
Yves Daoust
-2

Por supuesto, debe eliminar los valores atípicos, ya que, por definición, no siguen la distribución bajo escrutinio y son un fenómeno parasitario.

La verdadera pregunta es "¿cómo puedo detectar de manera confiable los valores atípicos"!

Yves Daoust
fuente
¿Qué pasa si tal distribución es Cauchy?
AdamO
@ Adam: la verdadera pregunta sigue siendo, por supuesto.
Yves Daoust
¿Por qué este voto negativo?
Yves Daoust
3
(-1) porque no creo que sea una contribución adecuada informada por teoría, ejemplo o práctica. ¿Qué es un "fenómeno parasitario" sino una comprensión poética de los datos? Al tratar con la presión arterial, el sodio urinario y las imágenes neurológicas, veo "valores atípicos" en el día a día que son representativos de la población en consideración. Eliminarlos puede ser una fuente importante de sesgo. Decir que son un "fenómeno parasitario" está permitiendo sugestiva y engañosamente una práctica estadística arriesgada.
AdamO
@adam: solo estás abogando por mantener los inliers, con lo que estoy totalmente de acuerdo.
Yves Daoust