Problemas con la detección de valores atípicos

En una publicación de blog, Andrew Gelman escribe :

La regresión gradual es una de estas cosas, como la detección de valores atípicos y los gráficos circulares, que parecen ser populares entre los no estadísticos, pero los estadísticos consideran que son una broma.

Entiendo la referencia a los gráficos circulares, pero ¿por qué los estadísticos desprecian la detección de valores atípicos según Gelman? ¿Es solo que podría causar que las personas poden en exceso sus datos?

dataset outliers quality-control 114
fuente

Si mira los comentarios en la misma página a la que se vinculó, encontrará una respuesta del propio Andrew, así como una discusión adicional. Ver por ejemplo este comentario: andrewgelman.com/2014/06/02/hate-stepwise-regression/…

Jerome Baum

El detalle aquí sobre estadísticos versus no estadísticos es lamentable. Mire, por ejemplo, el tratado de Barnett y Lewis sobre valores atípicos y verá prueba tras prueba sugerida principalmente por estadísticos que se centran en situaciones inverosímiles. Es cierto que (por ejemplo) en física, las personas a menudo siguen las antiguas reglas propuestas por Peirce y Chauvenet, pero gran parte de la tontería aquí también está asociada con los estadísticos. Divulgación: no soy un estadístico, y tiendo a creer que los valores atípicos a menudo son genuinos y que encontrar la escala adecuada para trabajar hace que casi todo sea manejable.

Nick Cox

@ NickCox: Creo que Gelman puede haberse estado refiriendo a diferentes conversaciones estadísticas y no estadísticas. Por ejemplo, cuando se observa un comportamiento malicioso en las redes, muchos no estadísticos son despedidos por la detección de valores atípicos; "Por supuesto que quiero saber sobre el comportamiento inusual!". Leyendo a través de la literatura estadística, muchos estadísticos comienzan y finalizan sus trabajos "bueno, esto se puede hacer y así es cómo pero ..."

Cliff AB

... o, alternativamente, los biólogos a menudo están de acuerdo con descartar los valores atípicos, porque creen que estos valores atípicos se deben a errores de procedimiento en lugar de un resultado inusual de un experimento ejecutado correctamente. Entonces, para ellos, un procedimiento que elimina automáticamente los errores de procedimiento suena genial, pero un estadístico no está tan contento con lo que realmente sucede en la práctica.

Cliff AB

Respuestas:

El comentario de @Jerome Baum es acertado. Para traer la cita de Gelman aquí:

La detección de valores atípicos puede ser algo bueno. El problema es que a los no estadísticos parece que les gusta aferrarse a la palabra "atípico" sin tratar de pensar en absoluto sobre el proceso que crea el atípico, también algunos libros de texto tienen reglas que parecen ser estúpidas para estadísticos como yo, reglas como etiquetar algo como un valor atípico si tiene más de un número de SD de la mediana, o lo que sea. El concepto de un valor atípico es útil, pero creo que requiere contexto; si etiqueta algo como algo atípico, debe intentar tener una idea de por qué piensa eso.

Para agregar un poco más, ¿qué tal si primero definimos valores atípicos ? Intente hacerlo rigurosamente sin referirse a nada visual como "parece que está lejos de otros puntos". En realidad es bastante difícil.

Diría que un valor atípico es un punto que es altamente improbable dado un modelo de cómo se generan los puntos. En la mayoría de las situaciones, las personas en realidad no tienen un modelo de cómo se generan los puntos, o si lo hacen, se simplifica demasiado y se equivoca la mayor parte del tiempo. Entonces, como dice Andrew, la gente hará cosas como suponer que algún tipo de proceso gaussiano está generando puntos y, por lo tanto, si un punto es mayor que un cierto número de SD de la media, es un valor atípico. Matemáticamente conveniente, no tan basado en principios.

Y ni siquiera nos hemos metido en lo que la gente hace con los valores atípicos una vez que son identificados. La mayoría de la gente quiere tirar estos puntos inconvenientes, por ejemplo. ¡En muchos casos, son los valores atípicos los que conducen a avances y descubrimientos, no los no atípicos!

Hay una gran cantidad de ad-hoc en la detección de valores atípicos, como lo practican los no estadísticos, y Andrew se siente incómodo con eso.

Wayne
fuente

Esto demuestra el clásico tira y afloja entre los dos tipos de objetivos para los análisis estadísticos, como la regresión: descriptiva versus predictiva. (Disculpe las generalizaciones en mis comentarios a continuación).

Desde el punto de vista del estadístico, la descripción generalmente importa más que la predicción. Por lo tanto, son inherentemente "sesgados" hacia la explicación. ¿Por qué hay un valor atípico? ¿Es realmente un error en la entrada de datos (ceros adicionales al final de un valor) o es un punto de datos válido que resulta ser extremo? Estas son preguntas importantes para un estadístico.

OTOH, los científicos de datos están más interesados en la predicción que en la descripción. Su objetivo es desarrollar un modelo sólido que haga un gran trabajo al predecir un resultado futuro (por ejemplo, compra, desgaste). Si hay un valor extremo en uno de los campos, un científico de datos con mucho gusto limitaría ese valor (al valor del percentil 98, por ejemplo) si eso ayuda a mejorar la precisión predictiva del modelo.

No tengo una inclinación general hacia ninguno de estos dos enfoques. Sin embargo, si los métodos / enfoques, como la regresión gradual y el tratamiento atípico, son "un poco una broma" o no, depende de qué lado de la cerca se encuentre.

Vishal
fuente