Como dice el título, ¿alguien sabe de un buen libro actualizado que cubra el preprocesamiento de datos en general y especialmente las técnicas de detección atípicas?
No es necesario que el libro se centre exclusivamente en eso, pero debe tratar exhaustivamente los temas antes mencionados: no estaría contento con algo que sea un punto de partida y cite una lista de artículos, las explicaciones de las diversas técnicas deben aparecer en El libro en sí.
Las técnicas para tratar con datos faltantes son preferibles, pero no necesarias ...
Respuestas:
Aunque es específico de Stata, el libro de Scott Long, El flujo de trabajo del análisis de datos con Stata , es invaluable en el área de gestión y preparación de datos. El autor brinda muchos consejos útiles sobre las buenas prácticas en la gestión de datos, como la limpieza y el archivo de datos, la búsqueda de valores atípicos y el tratamiento de datos faltantes.
fuente
Para SAS, existen las técnicas de limpieza de datos de Ron Cody que utilizan el software SAS . Hay un dicho en SAS-L: "Nunca puedes equivocarte con un libro de Ron Cody"
fuente
Si tiene los conceptos básicos (identificación de valores atípicos, valores perdidos, ponderación, codificación) dependiendo del tema, hay mucho más en la literatura académica simple que se puede encontrar. Por ejemplo, en la investigación de encuestas (que es un tema en el que muchas cosas pueden salir mal y son propensas a muchas fuentes de sesgo), se pueden encontrar muchos artículos buenos.
Al prepararse para la regresión transversal transversal regular, las cosas pueden ser menos complejas. El problema puede ser, por ejemplo, que elimine demasiados "valores atípicos" y que, por lo tanto, se ajuste artificialmente bien a su modelo.
Por lo tanto, también te recomiendo que, además de aprender buenas técnicas, ten en cuenta el sentido común. Asegúrese de aplicar las técnicas correctamente y no a ciegas. En cuanto a la discusión del software en las otras respuestas. Creo que SPSS no es malo para la preparación de datos (también escuché cosas buenas sobre SAS) dependiendo del tamaño de su conjunto de datos. Los menús desplegables son muy intuitivos.
Pero como respuesta directa a su pregunta, la literatura académica puede o no ser una muy buena fuente para la preparación de sus datos, dependiendo del tema y el análisis.
fuente