Diferencia entre datos faltantes y datos dispersos en algoritmos de aprendizaje automático

20

¿Cuáles son las principales diferencias entre los datos dispersos y los datos faltantes? ¿Y cómo influye en el aprendizaje automático? Más específicamente, qué efecto tienen los datos dispersos y los datos faltantes en los algoritmos de clasificación y el tipo de algoritmos de regresión (números de predicción). Estoy hablando de una situación en la que el porcentaje de datos faltantes es significativo y no podemos descartar las filas que contienen datos faltantes.

dev cansado y aburrido
fuente
44
La escasez de datos significa que muchos de los valores son cero, pero usted sabe que son cero. La falta de datos significa que no sabe cuáles son algunos o muchos de los valores.
Anna SdTC
Gracias. Eso es lo que también pensé, pero quería confirmar. Además, como se mencionó en la pregunta, me gustaría saber cómo, en general, estos tipos de conjuntos de datos se manejan en problemas de aprendizaje automático ...
cansado y aburrido dev
1
Creo que tu pregunta es un poco vaga. El "aprendizaje automático" incluye una amplia gama de métodos y herramientas, por lo que la respuesta depende de lo que tenga o de lo que quiera hacer. Aquí discuten algunos métodos para manejar datos faltantes: stats.stackexchange.com/questions/103500/…
Anna SdTC
Gracias. Conozco una amplia gama de herramientas y tipos de algoritmos ml. Pero quería saber si hay algún enfoque general.
Dev cansado y aburrido

Respuestas:

16

Para facilitar la comprensión, describiré esto usando un ejemplo. Digamos que está recopilando datos de un dispositivo que tiene 12 sensores. Y ha recopilado datos durante 10 días.

Los datos que ha recopilado son los siguientes: ingrese la descripción de la imagen aquí

Esto se denomina datos dispersos porque la mayoría de las salidas del sensor son cero. Lo que significa que esos sensores funcionan correctamente pero la lectura real es cero. Aunque esta matriz tiene datos de alta dimensión (12 ejes), se puede decir que contiene menos información.

Digamos que 2 sensores de su dispositivo no funcionan correctamente.
Entonces sus datos serán como:ingrese la descripción de la imagen aquí

En este caso, puede ver que no puede usar datos de Sensor1 y Sensor6. O tiene que completar los datos manualmente sin afectar los resultados o debe rehacer el experimento.

Lahiru Karunaratne
fuente