Buenos libros sobre preprocesamiento de datos y técnicas de detección de valores atípicos.

11

Como dice el título, ¿alguien sabe de un buen libro actualizado que cubra el preprocesamiento de datos en general y especialmente las técnicas de detección atípicas?

No es necesario que el libro se centre exclusivamente en eso, pero debe tratar exhaustivamente los temas antes mencionados: no estaría contento con algo que sea un punto de partida y cite una lista de artículos, las explicaciones de las diversas técnicas deben aparecer en El libro en sí.

Las técnicas para tratar con datos faltantes son preferibles, pero no necesarias ...

em70
fuente
¿Podría decirnos qué tipo de datos (campo científico o técnica de medición) está viendo?
cbeleites descontento con SX
Datos recopilados de usuarios web (no puede ser más específico). Se incluyen marcas de tiempo (aunque los datos no están estrictamente relacionados con el tiempo, al menos intuitivamente), atributos categóricos y atributos continuos. Los valores atípicos pueden ser causados ​​por innumerables razones, incl. robots web, usuarios maliciosos y muchas más fuentes. Los datos también son bastante grandes (GB en formato CSV, varios millones de entradas)
em70
Para mí es lo suficientemente específico: no es necesario aburrirlo con el preprocesamiento de conjuntos de datos químicos o espectroscópicos ...
cbeleites descontento con SX

Respuestas:

3

Aunque es específico de Stata, el libro de Scott Long, El flujo de trabajo del análisis de datos con Stata , es invaluable en el área de gestión y preparación de datos. El autor brinda muchos consejos útiles sobre las buenas prácticas en la gestión de datos, como la limpieza y el archivo de datos, la búsqueda de valores atípicos y el tratamiento de datos faltantes.

Ciarán
fuente
2
También me encanta este libro, pero soy un usuario de Stata teñido en lo que respecta a la gestión de datos. Si bien no estoy de acuerdo, otros en esta lista han argumentado que es demasiado específico de Stata para ser útil, por lo tanto, tenga en cuenta emptor / lector.
Dimitriy V. Masterov
Muy stat-ish por lo que reúno, y no estoy familiarizado con stata, ni ayudaría para este mismo proyecto si lo fuera (los datos son demasiado grandes, utilizando diferentes tecnologías)
em70
El libro es de hecho muy idiosincrásico. Las técnicas particulares de manejo de datos (y especialmente metadatos) son específicas de Stata, pero las ideas generales son transferibles entre plataformas. Me sorprende que con la proporción de aproximadamente 20 libros Stata / 100 libros R en el mercado, no haya libros comparables sobre la organización del flujo de trabajo en R: ¿es esto último imposible? La mayor cantidad de memoria que recuerdo vívidamente asignar a Stata fue de 48 Gb en una máquina de 64 Gb, eso es si el tamaño importa. Si necesita manipular objetos de estructura muy diferente, querrá hacerlo en R, no en Stata.
StasK
0

Para SAS, existen las técnicas de limpieza de datos de Ron Cody que utilizan el software SAS . Hay un dicho en SAS-L: "Nunca puedes equivocarte con un libro de Ron Cody"

Peter Flom - Restablece a Monica
fuente
Me temo que SAS no es la herramienta de elección en mi entorno ni estoy familiarizado con él. Además, estoy buscando algún enfoque, en lugar de un libro de cocina. Digamos que busco algo que está más en el lado matemático y de modelado de las cosas.
em70
0

Si tiene los conceptos básicos (identificación de valores atípicos, valores perdidos, ponderación, codificación) dependiendo del tema, hay mucho más en la literatura académica simple que se puede encontrar. Por ejemplo, en la investigación de encuestas (que es un tema en el que muchas cosas pueden salir mal y son propensas a muchas fuentes de sesgo), se pueden encontrar muchos artículos buenos.

Al prepararse para la regresión transversal transversal regular, las cosas pueden ser menos complejas. El problema puede ser, por ejemplo, que elimine demasiados "valores atípicos" y que, por lo tanto, se ajuste artificialmente bien a su modelo.

Por lo tanto, también te recomiendo que, además de aprender buenas técnicas, ten en cuenta el sentido común. Asegúrese de aplicar las técnicas correctamente y no a ciegas. En cuanto a la discusión del software en las otras respuestas. Creo que SPSS no es malo para la preparación de datos (también escuché cosas buenas sobre SAS) dependiendo del tamaño de su conjunto de datos. Los menús desplegables son muy intuitivos.

Pero como respuesta directa a su pregunta, la literatura académica puede o no ser una muy buena fuente para la preparación de sus datos, dependiendo del tema y el análisis.

C. Pieters
fuente