En Kahneman y Deaton (2010) † , los autores escriben lo siguiente:
Esta regresión explica el 37% de la varianza, con un error cuadrático medio (RMSE) de 0.67852. Para eliminar los valores atípicos y los informes de ingresos inverosímiles, descartamos observaciones en las que el valor absoluto de la diferencia entre el ingreso logarítmico y su predicción excedía 2.5 veces el RMSE.
¿Es esta práctica común? ¿Cuál es la intuición detrás de hacerlo? Parece algo extraño definir un valor atípico basado en un modelo que puede no estar bien especificado en primer lugar. ¿No debería basarse la determinación de valores atípicos en algunos fundamentos teóricos de lo que constituye un valor plausible, en lugar de cuán bien su modelo predice los valores reales?
: Daniel Kahneman, Angus Deaton (2010): Los ingresos altos mejoran la evaluación de la vida pero no el bienestar emocional. Actas de la Academia Nacional de Ciencias, septiembre de 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107
fuente
Respuestas:
La razón para descartar estos datos se indica allí en la cita: a saber, "eliminar valores atípicos e informes de ingresos inverosímiles". El hecho de que se refieran a ambas cosas en conjunto significa que están reconociendo que al menos algunos de sus valores atípicos no son valores inverosímiles y, en cualquier caso, no dan argumentos sobre por qué los valores con un alto residuo deben considerarse "inverosímiles". "valores de ingresos. Al hacer esto, están eliminando efectivamente los puntos de datos porque los residuos son más altos de lo que se espera en su modelo de regresión. Como he dicho en otras respuestas aquí , esto equivale a exigir que la realidad se ajuste a los supuestos de su modelo e ignorar partes de la realidad que no cumplen con esos supuestos.
Si esta es una práctica común o no, es una práctica terrible.. Ocurre porque los puntos de datos periféricos son difíciles de tratar y el analista no está dispuesto a modelarlos adecuadamente (por ejemplo, al usar un modelo que permite una curtosis más alta en los términos de error), por lo que simplemente eliminan partes de la realidad que no ajustarse a su capacidad para emprender modelos estadísticos. Esta práctica es estadísticamente indeseable y conduce a inferencias que subestiman sistemáticamente la varianza y la curtosis en los términos de error. Los autores de este artículo informan que descartaron 3.22% de sus datos debido a la eliminación de estos valores atípicos (p. 16490). Dado que la mayoría de estos puntos de datos habrían sido ingresos muy altos, esto arroja dudas sustanciales sobre su capacidad para sacar conclusiones sólidas sobre el efecto de los ingresos altos (que es el objetivo de su artículo).
fuente