Eliminación de valores atípicos de los datos: ¿número máximo de valores atípicos que puede eliminar?
9
Tengo un par de valores atípicos en mis datos y quería excluirlos para ver si esto cambia los resultados. En su opinión, ¿cuál es el número máximo de valores atípicos a los que uno debería restringirse?
Su gráfico está destrozado aquí: faltan las etiquetas numéricas en el eje y y las entradas de la leyenda no son distintas. (Esa puede ser una forma de ocultar datos no publicados, pero no nos ayuda a darle buenos consejos). La leyenda críptica no afecta su pregunta, pero no saber en qué escala está trabajando limita el alcance de respuestas útiles. . Los datos que se muestran muestran un sesgo moderado a la izquierda o negativo; Esto puede tener sentido, y los valores atípicos aparentes simplemente son consecuencias de eso. Alternativamente, puede ser que haya sobre-transformado, por ejemplo, logaritmos usados donde los datos no merecen eso.
Nick Cox
Respuestas:
9
No hay máximo ni mínimo. Los valores atípicos deben eliminarse si son datos incorrectos o si hay otras razones importantes para eliminarlos. Si no hay razones sustantivas, sugiero usar métodos que sean robustos para los valores atípicos. No eliminaría los valores atípicos solo porque están un poco lejos de otros puntos.
Convenido. Tenga en cuenta que Box, Hunter & Hunter: "Estadísticas para experimentadores" dice que en la industria química, ¡los valores atípicos a menudo han dado como resultado nuevas patentes! ¡Dependiendo de las circunstancias, los valores atípicos podrían ser la información más importante en sus datos! Quitarlos nunca debe ser fácil.
kjetil b halvorsen
3
También en astrofísica. "Simplemente borremos los agujeros negros y las estrellas de neutrones de los datos" :-).
Peter Flom - Restablece a Monica
1
Peter Flom: ¡Sí! Y entre los seres humanos, si no hubiera valores atípicos entre nosotros, ¡aún estaríamos viviendo en la edad de piedra!
kjetil b halvorsen
55
En este ejemplo, tenga en cuenta que los 7 valores atípicos etiquetados tienen valores bajos, mientras que ninguno tiene valores altos. Eso podría representar problemas con la medición, o podría significar algo muy interesante. De cualquier manera, simplemente eliminar los valores atípicos aquí sin considerar lo que condujo a los valores bajos parecería desaconsejable.
EdM
1
Interpreto la pregunta un poco diferente. No propone eliminar los valores atípicos del análisis, que es lo que esta respuesta supone implícitamente. Solo pregunta cómo realizar un análisis de sensibilidad "para ver si esto cambia los resultados". Aunque el consejo dado aquí sobre si eliminar los valores atípicos está bien, y claramente tendría algo que ver con las decisiones posteriores si resulta que el análisis es sensible a los valores atípicos, no parece servir a los intereses del OP en este caso.
whuber
1
Enfatizaría algo que se dijo en otra respuesta y comentarios (creo que las respuestas de @Peter Flom son precisas y que EdM está en contacto con las mediciones, entre todos).
Analizar datos es algo que debe hacerse con cuidado. Debe ser muy consciente del significado de valores atípicos en su contacto. Por ejemplo, suponiendo que su procedimiento de medición se realizó "correctamente" (quiero decir, no ha introducido sesgos, su equipo fue calibrado, la persona que leyó el instrumento lo hizo correctamente, etc., etc.), algunos valores atípicos pueden decir algo interesante y a veces muy importante
Aquí hay un ejemplo inventado, por favor sea indulgente (indíquelo en los comentarios) si no es 100% correcto en todos los aspectos. ;)
Digamos que alguien está probando el efecto de aplicar una cierta cantidad de una sustancia a algunos cultivos (poblaciones) de bacterias. Ahora, "en general", el efecto es estabilizar el número de bacterias en la población, pero existen algunos valores atípicos entre las diferentes culturas.
Imagine que todos sus valores atípicos indican situaciones en las que todas las bacterias están muertas. O que todos los valores atípicos representan culturas donde las poblaciones de bacterias han crecido sin control.
Lo que quiero señalar es que la naturaleza de sus valores atípicos percibidos puede ser significativa y las consecuencias de cada uno son diferentes. Es posible que se encuentre en una situación en la que es intolerable que el número de bacterias aumente o disminuya.
Por supuesto, si notó que algunas poblaciones fueron eliminadas por la sustancia, probablemente investigaría sobre el asunto, ya que es una situación fácilmente reconocible. Pero no todos los fenómenos son fácilmente detectables.
Para concluir, la noción de valores atípicos es algo arbitraria, pero sus significados son múltiples y de diferente importancia. Espero que te haga pensar en el asunto ... :)
Respuestas:
No hay máximo ni mínimo. Los valores atípicos deben eliminarse si son datos incorrectos o si hay otras razones importantes para eliminarlos. Si no hay razones sustantivas, sugiero usar métodos que sean robustos para los valores atípicos. No eliminaría los valores atípicos solo porque están un poco lejos de otros puntos.
fuente
Enfatizaría algo que se dijo en otra respuesta y comentarios (creo que las respuestas de @Peter Flom son precisas y que EdM está en contacto con las mediciones, entre todos).
Analizar datos es algo que debe hacerse con cuidado. Debe ser muy consciente del significado de valores atípicos en su contacto. Por ejemplo, suponiendo que su procedimiento de medición se realizó "correctamente" (quiero decir, no ha introducido sesgos, su equipo fue calibrado, la persona que leyó el instrumento lo hizo correctamente, etc., etc.), algunos valores atípicos pueden decir algo interesante y a veces muy importante
Aquí hay un ejemplo inventado, por favor sea indulgente (indíquelo en los comentarios) si no es 100% correcto en todos los aspectos. ;)
Digamos que alguien está probando el efecto de aplicar una cierta cantidad de una sustancia a algunos cultivos (poblaciones) de bacterias. Ahora, "en general", el efecto es estabilizar el número de bacterias en la población, pero existen algunos valores atípicos entre las diferentes culturas.
Imagine que todos sus valores atípicos indican situaciones en las que todas las bacterias están muertas. O que todos los valores atípicos representan culturas donde las poblaciones de bacterias han crecido sin control.
Lo que quiero señalar es que la naturaleza de sus valores atípicos percibidos puede ser significativa y las consecuencias de cada uno son diferentes. Es posible que se encuentre en una situación en la que es intolerable que el número de bacterias aumente o disminuya.
Por supuesto, si notó que algunas poblaciones fueron eliminadas por la sustancia, probablemente investigaría sobre el asunto, ya que es una situación fácilmente reconocible. Pero no todos los fenómenos son fácilmente detectables.
Para concluir, la noción de valores atípicos es algo arbitraria, pero sus significados son múltiples y de diferente importancia. Espero que te haga pensar en el asunto ... :)
fuente