¿Qué es mejor, reemplazo por medio y reemplazo por mediana?

Estoy haciendo un proyecto que implica reemplazar los valores faltantes en un conjunto de datos (la primera vez que lo hago). Esto implica el uso de dos métodos replacement by meany replacement by mediancompletar los valores faltantes. No hay mucha diferencia entre los resultados de la desviación mínima, mediana, máxima, media y estándar de los datos usando ambos métodos y me preguntaba qué método es mejor y cómo puedo tomar una decisión sobre cuál es mejor usando resultados producidos?

mean median data-imputation Jake MB
fuente

Si reemplaza las faltas con medios, naturalmente se preserva el medio. Lo mismo ocurre con las medianas. Tampoco cambiarán los extremos. Por lo general, las SD se reducirán ligeramente, pero se reducirían mucho si haces esto mucho. Estas son consecuencias predecibles de lo que haces y no indican ipso facto que el método es bueno.

Nick Cox

Los analistas que conectan valores perdidos (MV) con "soluciones" automáticas como esta no están pensando en las consecuencias. Es solo un enfoque fácil de implementar. Esta "solución" introduce tantos problemas como resuelve, ya que un pdf normalmente liso termina con un gran pico en el valor enchufado, en función de la cantidad de MV, por supuesto. Las imputaciones basadas en modelos son demostrablemente superiores y menos sesgadas que cualquier enfoque automatizado. @NickCox no puede ignorar esto, a pesar de lo que su sugerencia implica.

Mike Hunter

: @DJohnson ... no ipso facto indica que el método es bueno. ¿No está lo suficientemente claro?

Nick Cox

Los valores categóricos generalmente se imputan con el modo, ya que representa el valor más común para la columna dada.

Sandeep Kar

Respuestas:

Siempre depende de sus datos y su tarea.

Si hay un conjunto de datos que tiene grandes valores atípicos, preferiré la mediana. Ej: el 99% de los ingresos del hogar está por debajo de 100 y el 1% está por encima de 500.

Por otro lado, si trabajamos con el desgaste de la ropa que los clientes le dan a la tintorería (suponiendo que los operadores de la tintorería llenen este campo de manera intuitiva), llenaré las faltas con el valor medio del desgaste.

Es mejor comenzar desde la comprensión de los datos y luego este artículo será un punto de partida útil.

Aleksandro M Granda
fuente

Los datos que estoy usando pueden variar de 0 a 1 y he creado histogramas con límites de 0.1,0.2,0.3 ... a 1. Debido a que tengo muchos límites y esquemas diferentes, ¿diría que la media es la mejor?

Jake MB

@ JakeM-B, es difícil dar buenos consejos, cuando no tengo acceso directo ni historial de los datos. A menudo, el valor perdido en los datos significa que el valor debe ser cero (o algo por defecto). En su lugar (si no hay una gran diferencia entre la media y la mediana), probaría ambos y verificaría cómo influye en el resultado final.

Aleksandro M Granda

La imputación es un medio para un objetivo, no el objetivo en sí mismo. En algunas circunstancias, reemplazar los datos faltantes puede ser algo incorrecto. Asegúrese de prestar atención primero a por qué faltan sus datos, como se explica, por ejemplo, en la página Wikipedia de datos faltantes , y que la imputación es realmente apropiada para responder la pregunta que su proyecto busca responder.

Si se cumplen algunos supuestos (por ejemplo, si la probabilidad de que una variable tenga un valor faltante no depende del valor en sí, técnicamente llamado "faltante al azar") y su estudio involucra múltiples variables, podría ser mejor usar una imputación múltiple en lugar de reemplazos por medios o medianas. En la imputación múltiple, los valores conocidos de todas las variables se utilizan para proporcionar varios conjuntos de estimaciones de los datos faltantes. Este enfoque puede proporcionar mejores estimaciones tanto de las relaciones subyacentes entre las variables como de la confiabilidad de sus estimaciones. Consulte las preguntas en este sitio con la multiple-imputationetiqueta para obtener más información.

EdM
fuente