En una publicación de blog, Andrew Gelman escribe :
La regresión gradual es una de estas cosas, como la detección de valores atípicos y los gráficos circulares, que parecen ser populares entre los no estadísticos, pero los estadísticos consideran que son una broma.
Entiendo la referencia a los gráficos circulares, pero ¿por qué los estadísticos desprecian la detección de valores atípicos según Gelman? ¿Es solo que podría causar que las personas poden en exceso sus datos?
Respuestas:
El comentario de @Jerome Baum es acertado. Para traer la cita de Gelman aquí:
Para agregar un poco más, ¿qué tal si primero definimos valores atípicos ? Intente hacerlo rigurosamente sin referirse a nada visual como "parece que está lejos de otros puntos". En realidad es bastante difícil.
Diría que un valor atípico es un punto que es altamente improbable dado un modelo de cómo se generan los puntos. En la mayoría de las situaciones, las personas en realidad no tienen un modelo de cómo se generan los puntos, o si lo hacen, se simplifica demasiado y se equivoca la mayor parte del tiempo. Entonces, como dice Andrew, la gente hará cosas como suponer que algún tipo de proceso gaussiano está generando puntos y, por lo tanto, si un punto es mayor que un cierto número de SD de la media, es un valor atípico. Matemáticamente conveniente, no tan basado en principios.
Y ni siquiera nos hemos metido en lo que la gente hace con los valores atípicos una vez que son identificados. La mayoría de la gente quiere tirar estos puntos inconvenientes, por ejemplo. ¡En muchos casos, son los valores atípicos los que conducen a avances y descubrimientos, no los no atípicos!
Hay una gran cantidad de ad-hoc en la detección de valores atípicos, como lo practican los no estadísticos, y Andrew se siente incómodo con eso.
fuente
Esto demuestra el clásico tira y afloja entre los dos tipos de objetivos para los análisis estadísticos, como la regresión: descriptiva versus predictiva. (Disculpe las generalizaciones en mis comentarios a continuación).
Desde el punto de vista del estadístico, la descripción generalmente importa más que la predicción. Por lo tanto, son inherentemente "sesgados" hacia la explicación. ¿Por qué hay un valor atípico? ¿Es realmente un error en la entrada de datos (ceros adicionales al final de un valor) o es un punto de datos válido que resulta ser extremo? Estas son preguntas importantes para un estadístico.
OTOH, los científicos de datos están más interesados en la predicción que en la descripción. Su objetivo es desarrollar un modelo sólido que haga un gran trabajo al predecir un resultado futuro (por ejemplo, compra, desgaste). Si hay un valor extremo en uno de los campos, un científico de datos con mucho gusto limitaría ese valor (al valor del percentil 98, por ejemplo) si eso ayuda a mejorar la precisión predictiva del modelo.
No tengo una inclinación general hacia ninguno de estos dos enfoques. Sin embargo, si los métodos / enfoques, como la regresión gradual y el tratamiento atípico, son "un poco una broma" o no, depende de qué lado de la cerca se encuentre.
fuente