Descartar valores atípicos basados ​​en "2.5 veces el RMSE"

13

En Kahneman y Deaton (2010) , los autores escriben lo siguiente:

Esta regresión explica el 37% de la varianza, con un error cuadrático medio (RMSE) de 0.67852. Para eliminar los valores atípicos y los informes de ingresos inverosímiles, descartamos observaciones en las que el valor absoluto de la diferencia entre el ingreso logarítmico y su predicción excedía 2.5 veces el RMSE.

¿Es esta práctica común? ¿Cuál es la intuición detrás de hacerlo? Parece algo extraño definir un valor atípico basado en un modelo que puede no estar bien especificado en primer lugar. ¿No debería basarse la determinación de valores atípicos en algunos fundamentos teóricos de lo que constituye un valor plausible, en lugar de cuán bien su modelo predice los valores reales?


: Daniel Kahneman, Angus Deaton (2010): Los ingresos altos mejoran la evaluación de la vida pero no el bienestar emocional. Actas de la Academia Nacional de Ciencias, septiembre de 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107

Lengua de Parsel
fuente
1
Cuando da una cita de un trabajo, siempre dé una referencia que incluya el número de página .
Vuelva a instalar Mónica
77
No puedo decir si esto es una "práctica común", pero espero que no. La eliminación automática de "valores atípicos" es fundamentalmente una mala idea. Tal vez su modelo o criterio de eliminación no sea bueno, tal vez haya algo nuevo (comienzo de recesión, nuevas posibilidades que se despiertan) que no debe ignorar. // Es diferente si puede rastrear un valor sospechoso como error de entrada de datos o falla del equipo, o si el valor es simplemente absurdo (hombre alto de 16'2 ", tipo con 61 horas facturables el martes pasado, 25 minutos de vuelo SFO-ORD). Pero no porque no se ajuste a un modelo. Conozco una startup que se rompió de esa manera.
BruceET
77
La validez estadística de este enfoque se refleja en el número absurdo de decimales que informan para el RMSE.
Frans Rodenburg
Esto parece una solución burda / heroica de suposición a una pregunta que hice hace unos meses: stats.stackexchange.com/questions/390051/…
Adrian

Respuestas:

30

La razón para descartar estos datos se indica allí en la cita: a saber, "eliminar valores atípicos e informes de ingresos inverosímiles". El hecho de que se refieran a ambas cosas en conjunto significa que están reconociendo que al menos algunos de sus valores atípicos no son valores inverosímiles y, en cualquier caso, no dan argumentos sobre por qué los valores con un alto residuo deben considerarse "inverosímiles". "valores de ingresos. Al hacer esto, están eliminando efectivamente los puntos de datos porque los residuos son más altos de lo que se espera en su modelo de regresión. Como he dicho en otras respuestas aquí , esto equivale a exigir que la realidad se ajuste a los supuestos de su modelo e ignorar partes de la realidad que no cumplen con esos supuestos.

Si esta es una práctica común o no, es una práctica terrible.. Ocurre porque los puntos de datos periféricos son difíciles de tratar y el analista no está dispuesto a modelarlos adecuadamente (por ejemplo, al usar un modelo que permite una curtosis más alta en los términos de error), por lo que simplemente eliminan partes de la realidad que no ajustarse a su capacidad para emprender modelos estadísticos. Esta práctica es estadísticamente indeseable y conduce a inferencias que subestiman sistemáticamente la varianza y la curtosis en los términos de error. Los autores de este artículo informan que descartaron 3.22% de sus datos debido a la eliminación de estos valores atípicos (p. 16490). Dado que la mayoría de estos puntos de datos habrían sido ingresos muy altos, esto arroja dudas sustanciales sobre su capacidad para sacar conclusiones sólidas sobre el efecto de los ingresos altos (que es el objetivo de su artículo).

Reinstalar a Mónica
fuente
¿Cómo te atreves a criticar al Daniel Kahneman? Bromas aparte, esos son muy buenos puntos +1.
Tim
11
Kahneman es una excelente psicóloga, cuyos libros generalmente he disfrutado y me han resultado útiles. Cada uno podría tener cincuenta premios Nobel, no cambiaría el hecho de que la eliminación masiva de "valores atípicos" es una práctica estadística terrible.
Vuelva a instalar Mónica
3
Naturalmente estoy de acuerdo contigo. No pensé que fuera necesario decirlo.
Nick Cox
1
@NickCox Te refieres al llamado "Premio Nobel Memorial" : como estoy seguro de que sabes, no fue establecido por Nobel y no tiene nada que ver con él realmente. El nombre oficial es aparentemente "El Premio Sveriges Riksbank en Ciencias Económicas en Memoria de Alfred Nobel".
ameba dice Reinstate Monica
1
Estás seguro de que lo sé y de hecho tienes razón. El EJMR siempre autoritario una vez publicó esta publicación sobre mí "No, él nunca ganará el Nobel", lo que significa ese premio.
Nick Cox