Tengo un modelo de predicción probado con cuatro métodos, como puede ver en la figura del diagrama de caja a continuación. El atributo que predice el modelo está en el rango de 0-8.
Puede notar que hay un valor atípico de límite superior y tres valores atípicos de límite inferior indicados por todos los métodos. Me pregunto si es apropiado eliminar estas instancias de los datos. ¿O es una especie de trampa para mejorar el modelo de predicción?
Respuestas:
Es casi siempre un engaño para eliminar observaciones para mejorar un modelo de regresión. Debería dejar las observaciones solo cuando realmente piense que en realidad son valores atípicos.
Por ejemplo, tiene series de tiempo del monitor de frecuencia cardíaca conectado a su reloj inteligente. Si echa un vistazo a la serie, es fácil ver que habría observaciones erróneas con lecturas como 300bps. Deben eliminarse, pero no porque desee mejorar el modelo (lo que sea que signifique). Son errores de lectura que no tienen nada que ver con tu ritmo cardíaco.
Sin embargo, una cosa a tener cuidado es la correlación de errores con los datos. En mi ejemplo, podría argumentarse que tiene errores cuando el monitor de frecuencia cardíaca se desplaza durante ejercicios como correr o saltar. Lo que hará que estos errores se correlacionen con la frecuencia cardíaca. En este caso, se debe tener cuidado al eliminar estos valores atípicos y errores, ya que no son aleatorios
Te daré un ejemplo inventado de cuándo no eliminar los valores atípicos . Digamos que estás midiendo el movimiento de una pesa en un resorte. Si el peso es pequeño en relación con la fuerza del peso, entonces notará que la ley de Hooke funciona muy bien: donde F es fuerza, k - coeficiente de tensión y Δ x es la posición del peso .
Ahora, si coloca un peso muy pesado o lo desplaza demasiado, comenzará a ver desviaciones: con desplazamientos lo suficientemente grandes el movimiento parecerá desviarse del modelo lineal. Por lo tanto, podría verse tentado a eliminar los valores atípicos para mejorar el modelo lineal. Esta no sería una buena idea, porque el modelo no funciona muy bien, ya que la ley de Hooke es aproximadamente correcta.Δx
ACTUALIZACIÓN En su caso, sugeriría extraer esos puntos de datos y mirarlos más de cerca. ¿Podría ser la falla del instrumento de laboratorio? Interferencia externa? Defecto de la muestra? etc.
Luego, trate de identificar si la presencia de estos valores atípicos podría correlacionarse con lo que usted mide en el ejemplo que proporcioné. Si hay correlación, entonces no hay una manera simple de hacerlo. Si no hay correlación, puede eliminar los valores atípicos
fuente
It is always a cheating to remove outliers to improve a regression model.
¿Considera la regresión de splines como trampa ? FWIW, realiza observaciones de bajo peso para mejorar el modelo de regresión [local] ~Originalmente quería publicar esto como un comentario a otra respuesta, pero se hizo demasiado largo para adaptarse.
Cuando miro su modelo, no necesariamente contiene un grupo grande y algunos valores atípicos. En mi opinión, contiene 1 grupo de tamaño mediano (1 a -1) y luego 6 grupos más pequeños, cada uno encontrado entre 2 números enteros. Puedes ver claramente que cuando alcanzas un número entero, hay menos observaciones en esas frecuencias. El único punto especial es 0, donde no hay realmente una caída perceptible en las observaciones.
En mi opinión, vale la pena abordar por qué esta distribución se distribuye así:
Al medir acciones humanas discretas, siempre tendrá valores atípicos. Puede ser interesante ver por qué esos valores atípicos no se ajustan a su modelo y cómo se pueden usar para mejorar futuras iteraciones de su modelo.
fuente
Hay pros y contras para eliminar los valores atípicos y construir el modelo solo para "patrón normal".
Pros: el rendimiento del modelo es mejor. La intuición es que es muy difícil usar UN modelo para capturar tanto el "patrón normal" como el "patrón atípico". Así que eliminamos los valores atípicos y decimos que solo creamos un modelo para el "patrón normal".
Contras: no podremos predecir valores atípicos. En otras palabras, supongamos que ponemos nuestro modelo en producción, faltarían algunas predicciones del modelo
Sugeriría eliminar los valores atípicos y construir el modelo, y si es posible, intente construir un modelo separado solo para valores atípicos.
Para la palabra "trampa", si está escribiendo un documento y enumera explícitamente cómo define y elimina los valores atípicos, y la mención de un rendimiento mejorado solo se encuentra en los datos limpios. No es hacer trampa.
fuente
if it is fine to produce no output in production
Significa lo mismo? Entonces, si comenzamos a usar nuestro modelo en una aplicación real para probar la variable de resultado y usar el puntaje predicho en la aplicación, ¿no estaría bien eliminar los valores atípicos (especialmente si son tantos como usted mencionó)? ¿Es esto lo que quisiste decir?Creo que es razonable eliminar los valores atípicos cuando uno tiene una razón cualitativa sólida para hacerlo. Con esto quiero decir que uno tiene información de que otra variable, que no está en el modelo, está afectando las observaciones atípicas. Entonces uno tiene la opción de eliminar el valor atípico o agregar variables adicionales.
Encuentro que cuando tengo observaciones atípicas dentro de mi conjunto de datos, al estudiar para determinar por qué existe el atípico, aprendo más sobre mis datos y otros posibles modelos a considerar.
fuente
Ni siquiera estoy convencido de que sean "valores atípicos". Es posible que desee buscar hacer una gráfica de probabilidad normal. ¿Son datos o residuos del ajuste de un modelo?
fuente