Limpieza automática de datos

10

Un problema común es que ML es de baja calidad de los datos: errores en los valores de las características, instancias mal clasificadas, etc.

Una forma de abordar este problema es revisar manualmente los datos y verificarlos, pero ¿existen otras técnicas? (¡Apuesto a que sí!)

¿Cuáles son mejores y por qué?

andreister
fuente
Google Refine podría valer la pena echarle un vistazo.
Dimitriy V. Masterov

Respuestas:

6

La reducción de la dimensionalidad a través de algo como PCA sería útil para tener una idea de la cantidad de dimensiones que son críticas para representar sus datos.

Para verificar instancias mal clasificadas, puede hacer una agrupación rudimentaria de k-means de sus datos para tener una idea de qué tan bien sus datos sin procesar se ajustarían a las categorías propuestas. Si bien no es automático, la visualización en esta etapa sería útil, ya que su cerebro visual es un clasificador poderoso en sí mismo.

En términos de datos que faltan por completo, las estadísticas ya tienen numerosas técnicas para lidiar con esa situación, incluida la imputación, tomar datos del conjunto existente u otro conjunto para llenar los vacíos.

jonsca
fuente
3
Trazar datos es una verificación manual.
andreister
@andreister Considero que verificar punto por punto en una hoja de cálculo es una verificación manual, pero está bien, veo a qué te refieres.
jonsca
5

Realmente no puede eliminar a una persona conocedora del ciclo y esperar resultados razonables. Eso no significa que la persona tenga que mirar cada elemento individualmente, pero en última instancia, se necesita cierto conocimiento para saber si los resúmenes / gráficos de datos son razonables. (Por ejemplo: ¿puede la variable A ser negativa, puede la variable B ser más grande que la variable A, o hay 4 o 5 opciones para la variable categórica C?)

Una vez que haya tenido una mirada humana bien informada sobre los datos, probablemente pueda hacer una serie de reglas que podría usar para probar los datos automáticamente. El problema es que pueden surgir otros errores que no has pensado. (Por ejemplo, un error de programación en el proceso de recopilación de datos que duplica la variable A a la variable C.)

Wayne
fuente
Gran respuesta. Solo agregaría para asegurarme de que la sintaxis utilizada para limpiar las variables se conserve en la documentación, con comentarios, si no pasajes descriptivos, sobre por qué se cambiaron las cosas. :)
Michelle
1

Si sabe que sus datos no son del todo buenos, siempre es bueno verificar también los valores atípicos. La mayoría de las veces hay anomalías.

Si tiene muchas características, la reducción de dimensionalidad es imprescindible. PCA es bastante eficiente para eso.

Si le faltan datos, puede utilizar la imputación o la interpolación, pero si sus necesidades lo permiten, el caso ganador es utilizar el filtrado colaborativo.

vonPetrushev
fuente