Busqué una manera de eliminar los valores atípicos de un conjunto de datos y encontré esta pregunta .
Sin embargo, en algunos de los comentarios y respuestas a esta pregunta, las personas mencionaron que es una mala práctica eliminar los valores atípicos de los datos.
En mi conjunto de datos tengo varios valores atípicos que muy probablemente se deban a errores de medición. Incluso si algunos de ellos no lo son, no tengo forma de verificarlo caso por caso, porque hay demasiados puntos de datos. ¿Es estadísticamente válido que simplemente eliminar los valores atípicos? O, si no, ¿cuál podría ser otra solución?
Si solo dejo esos puntos allí, influyen, por ejemplo, en la media de una manera que no refleja la realidad (porque la mayoría de ellos son errores de todos modos).
EDITAR: estoy trabajando con datos de conductancia de la piel. La mayoría de los valores extremos se deben a artefactos como alguien tirando de los cables.
EDIT2: mi interés principal en analizar los datos es determinar si hay una diferencia entre dos grupos
Respuestas:
No recomiendo excluir ningún valor atípico en el análisis principal (a menos que esté realmente seguro de que están equivocados). Sin embargo, puede hacerlo en un análisis de sensibilidad y comparar los resultados de los dos análisis. En ciencia, a menudo descubres cosas nuevas precisamente cuando te enfocas en tales valores atípicos.
Para más detalles, solo piense en el descubrimiento seminal de la penicilina por parte de Fleming, basado en la contaminación accidental de sus experimentos con un moho:
http://www.abpischools.org.uk/page/modules/infectiousdiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1
Al observar el pasado cercano o el presente, la detección de valores atípicos a menudo se usa para guiar la innovación en ciencias biomédicas. Consulte, por ejemplo, los siguientes artículos (con algunos códigos R adecuados):
http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-article-a2599-abstract?article_id=2599
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678
Finalmente, si tiene motivos razonables para excluir algunos datos, puede hacerlo, preferiblemente en un análisis de sensibilidad, y no en el primario. Por ejemplo, podría excluir todos los valores que no sean biológicamente plausibles (como una temperatura de 48 grados Celsius en un paciente séptico). Del mismo modo, puede excluir todas las primeras y últimas mediciones para un paciente determinado, para minimizar los artefactos de movimiento. Sin embargo, tenga en cuenta que si hace esto post-hoc (no se basa en un criterio preespecificado), esto corre el riesgo de un masaje de datos.
fuente
Una opción es excluir los valores atípicos, pero en mi humilde opinión, eso es algo que solo debe hacer si puede argumentar (con casi certeza) por qué tales puntos no son válidos (por ejemplo, el equipo de medición se descompuso, el método de medición no era confiable por alguna razón, ...). Por ejemplo, en las mediciones de dominio de frecuencia, DC a menudo se descarta ya que muchos términos diferentes contribuyen a DC, a menudo sin relación con el fenómeno que está tratando de observar.
El problema con la eliminación de valores atípicos es que para determinar qué puntos son valores atípicos, debe tener un buen modelo de lo que es o no son "buenos datos". Si no está seguro sobre el modelo (qué factores deben incluirse, qué estructura tiene el modelo, cuáles son los supuestos del ruido, ...), entonces no puede estar seguro de sus valores atípicos. Esos valores atípicos pueden ser solo muestras que intentan decirle que su modelo está equivocado. En otras palabras: eliminar los valores atípicos reforzará su modelo (¡incorrecto!), En lugar de permitirle obtener nuevas ideas.
Otra opción es utilizar estadísticas robustas. Por ejemplo, la media y la desviación estándar son sensibles a los valores atípicos, otras métricas de "ubicación" y "propagación" son más sólidas. Por ejemplo, en lugar de la media, use la mediana. En lugar de la desviación estándar, use el rango intercuartil. En lugar de la regresión estándar de mínimos cuadrados, podría usar una regresión robusta. Todos esos métodos robustos restan énfasis a los valores atípicos de una forma u otra, pero generalmente no eliminan los datos atípicos por completo (es decir, algo bueno).
fuente
Pensé que agregaría una historia de advertencia sobre la eliminación de valores atípicos:
¿Recuerdas el problema con el agujero en la capa de ozono polar? Hubo un satélite que se puso en órbita sobre el poste específicamente para medir la concentración de ozono. Durante algunos años, los datos postprocesados del satélite informaron que el ozono polar estaba presente a niveles normales, aunque otras fuentes mostraron claramente que faltaba el ozono. Finalmente, alguien volvió a revisar el software del satélite. Resultó que alguien había escrito el código para verificar si la medición sin procesar estaba dentro de un rango esperado sobre el nivel histórico típico, y para asumir que cualquier medición fuera del rango era solo un 'pico' de instrumento (es decir, un valor atípico), auto- corrigiendo el valor . Afortunadamente, también habían registrado las mediciones en bruto; Al revisarlos vieron que el agujero había sido reportado todo el tiempo.
fuente
'Outlier' es un término conveniente para recopilar datos juntos que no se ajustan a lo que espera que se vea su proceso, para eliminarlo del análisis.
Sugeriría nunca (advertencia más adelante) eliminar los valores atípicos. Mi experiencia es el control de procesos estadísticos, por lo que a menudo me ocupo de grandes volúmenes de datos de series temporales generados automáticamente que se procesan utilizando un gráfico de ejecución / diagrama de caja móvil, etc., dependiendo de los datos y la distribución.
Lo que sucede con los valores atípicos es que siempre proporcionarán información sobre su "proceso". A menudo, lo que estás pensando como un proceso es en realidad muchos procesos y es mucho más complejo de lo que crees.
Usando el ejemplo en su pregunta, sugeriría que podría haber una serie de 'procesos'. habrá variación debido a ...
Todos estos procesos producirán una variación adicional en los datos y probablemente moverán la media y cambiarán la forma de la distribución. Muchos de estos no podrá separarlos en procesos distintos.
Entonces, yendo a la idea de eliminar puntos de datos como 'valores atípicos' ... solo eliminaría puntos de datos, cuando definitivamente puedo atribuirlos a un 'proceso' particular que no quiero incluir en mi análisis. Luego debe asegurarse de que los motivos de no inclusión se registren como parte de su análisis, por lo que es obvio. No asuma la atribución, esa es la clave para tomar notas adicionales a través de la observación durante la recopilación de datos.
Desafiaría su afirmación "porque la mayoría de ellos son errores de todos modos", ya que no son errores, sino solo parte de un proceso diferente que ha identificado en sus mediciones como diferente.
En su ejemplo, creo que es razonable excluir puntos de datos que puede atribuir a un proceso separado que no desea analizar.
fuente
Si está eliminando valores atípicos, en la mayoría de las situaciones debe documentar que lo está haciendo y por qué. Si se trata de un artículo científico, o para fines regulatorios, esto podría resultar en que sus estadísticas finales sean descontadas y / o rechazadas.
La mejor solución es identificar cuándo cree que está obteniendo datos incorrectos (por ejemplo, cuando la gente tira de los cables), luego identificar cuándo las personas están tirando de los cables y extraer los datos por ese motivo. Esto probablemente también dará como resultado que se eliminen algunos puntos de datos "buenos", pero ahora tiene una razón "real" para etiquetar y descontar esos puntos de datos al final de la recopilación en lugar de al final del análisis. Mientras lo haga de forma limpia y transparente, es mucho más probable que sea aceptable para terceros. Si elimina los puntos de datos relacionados con los cables extraídos, y aún obtiene valores atípicos, entonces la conclusión probable es que los cables extraídos no son el (único) problema: el problema adicional podría ser con el diseño de su experimento o su teoría.
Uno de los primeros experimentos que tuvo mi madre cuando regresó a la universidad para terminar su licenciatura fue uno en el que a los estudiantes se les dio una teoría 'mala' sobre cómo funcionaba un proceso, y luego se les dijo que realizaran un experimento. Los estudiantes que eliminaron o modificaron los puntos de datos 'malos' resultantes reprobaron la tarea. Los que informaron correctamente que sus datos estaban en desacuerdo con los resultados predichos por la teoría (la mala), aprobaron. El objetivo de la tarea era enseñar a los estudiantes a no "arreglar" (falsificar) sus datos cuando no era lo que se esperaba.
Resumen: si está generando datos incorrectos, repare su experimento, no los datos.
fuente
Es un dilema moral seguro. Por un lado, ¿por qué debería dejar que algunos puntos de datos sospechosos arruinen el ajuste de su modelo a la mayor parte de los datos? Por otro lado, eliminar observaciones que no concuerdan con el concepto de realidad de su modelo es una especie de censura. Para el punto de @ Egon, esos valores atípicos podrían estar tratando de decirte algo sobre esa realidad.
En una presentación del estadístico Steve MacEachern, definió los valores atípicos como "[no representativos del fenómeno en estudio]". Bajo ese punto de vista, si considera que estos puntos de datos sospechosos no son representativos del fenómeno de conductancia de la piel que está tratando de estudiar , tal vez no pertenecen al análisis. O si se les permite quedarse, se debe usar un método que limite su influencia. En esa misma presentación, MacEachern dio ejemplos de métodos robustos, y recuerdo que, en esos pocos ejemplos, los métodos clásicos con los valores atípicos eliminados siempre coincidieron con los análisis robustos con los valores atípicos aún incluidos. Personalmente, tiendo a trabajar con las técnicas clásicas con las que me siento más cómodo y vivo con la incertidumbre moral de la eliminación atípica.
fuente
Si llevo a cabo una muestra aleatoria de 100 personas, y una de esas personas es Bill Gates, entonces, por lo que puedo decir, Bill Gates es representativo de 1/100 de la población.
Una media recortada me dice que las ganancias promedio de la lotería son $ 0.
fuente
Por supuesto, debe eliminar los valores atípicos, ya que, por definición, no siguen la distribución bajo escrutinio y son un fenómeno parasitario.
La verdadera pregunta es "¿cómo puedo detectar de manera confiable los valores atípicos"!
fuente