¿Cuáles son las principales diferencias entre los datos dispersos y los datos faltantes? ¿Y cómo influye en el aprendizaje automático? Más específicamente, qué efecto tienen los datos dispersos y los datos faltantes en los algoritmos de clasificación y el tipo de algoritmos de regresión (números de predicción). Estoy hablando de una situación en la que el porcentaje de datos faltantes es significativo y no podemos descartar las filas que contienen datos faltantes.
machine-learning
dataset
missing-data
sparse
dev cansado y aburrido
fuente
fuente
Respuestas:
Para facilitar la comprensión, describiré esto usando un ejemplo. Digamos que está recopilando datos de un dispositivo que tiene 12 sensores. Y ha recopilado datos durante 10 días.
Los datos que ha recopilado son los siguientes:
Esto se denomina datos dispersos porque la mayoría de las salidas del sensor son cero. Lo que significa que esos sensores funcionan correctamente pero la lectura real es cero. Aunque esta matriz tiene datos de alta dimensión (12 ejes), se puede decir que contiene menos información.
Digamos que 2 sensores de su dispositivo no funcionan correctamente.
Entonces sus datos serán como:
En este caso, puede ver que no puede usar datos de Sensor1 y Sensor6. O tiene que completar los datos manualmente sin afectar los resultados o debe rehacer el experimento.
fuente