Estoy haciendo un proyecto que implica reemplazar los valores faltantes en un conjunto de datos (la primera vez que lo hago). Esto implica el uso de dos métodos replacement by mean
y replacement by median
completar los valores faltantes. No hay mucha diferencia entre los resultados de la desviación mínima, mediana, máxima, media y estándar de los datos usando ambos métodos y me preguntaba qué método es mejor y cómo puedo tomar una decisión sobre cuál es mejor usando resultados producidos?
mean
median
data-imputation
Jake MB
fuente
fuente
Respuestas:
Siempre depende de sus datos y su tarea.
Si hay un conjunto de datos que tiene grandes valores atípicos, preferiré la mediana. Ej: el 99% de los ingresos del hogar está por debajo de 100 y el 1% está por encima de 500.
Por otro lado, si trabajamos con el desgaste de la ropa que los clientes le dan a la tintorería (suponiendo que los operadores de la tintorería llenen este campo de manera intuitiva), llenaré las faltas con el valor medio del desgaste.
Es mejor comenzar desde la comprensión de los datos y luego este artículo será un punto de partida útil.
fuente
La imputación es un medio para un objetivo, no el objetivo en sí mismo. En algunas circunstancias, reemplazar los datos faltantes puede ser algo incorrecto. Asegúrese de prestar atención primero a por qué faltan sus datos, como se explica, por ejemplo, en la página Wikipedia de datos faltantes , y que la imputación es realmente apropiada para responder la pregunta que su proyecto busca responder.
Si se cumplen algunos supuestos (por ejemplo, si la probabilidad de que una variable tenga un valor faltante no depende del valor en sí, técnicamente llamado "faltante al azar") y su estudio involucra múltiples variables, podría ser mejor usar una imputación múltiple en lugar de reemplazos por medios o medianas. En la imputación múltiple, los valores conocidos de todas las variables se utilizan para proporcionar varios conjuntos de estimaciones de los datos faltantes. Este enfoque puede proporcionar mejores estimaciones tanto de las relaciones subyacentes entre las variables como de la confiabilidad de sus estimaciones. Consulte las preguntas en este sitio con la
multiple-imputation
etiqueta para obtener más información.fuente