Preguntas etiquetadas con data-cleaning

16
¿Limpieza de datos de formato inconsistente en R?

A menudo trato con datos de encuestas desordenados que requieren mucha limpieza antes de que se puedan realizar estadísticas. Solía ​​hacer esto "manualmente" en Excel, a veces usando fórmulas de Excel, y otras comprobando las entradas una por una. Comencé a hacer cada vez más estas tareas...

13
Estado del arte en deduplicación

¿Cuáles son los métodos más avanzados en deduplicación de registros? La deduplicación también se denomina a veces: vinculación de registros, resolución de entidad, resolución de identidad, fusión / purga. Sé, por ejemplo, sobre CBLOCK [1]. Agradecería que las respuestas también incluyeran...

10
Limpieza automática de datos

Un problema común es que ML es de baja calidad de los datos: errores en los valores de las características, instancias mal clasificadas, etc. Una forma de abordar este problema es revisar manualmente los datos y verificarlos, pero ¿existen otras técnicas? (¡Apuesto a que sí!) ¿Cuáles son mejores...