Reemplazar valores atípicos con media

31

Esta pregunta fue hecha por mi amigo que no conoce Internet. No tengo antecedentes en estadísticas y he estado buscando en internet esta pregunta.

La pregunta es: ¿es posible reemplazar los valores atípicos con valor medio? si es posible, ¿hay alguna referencia de libro / revistas para respaldar esta declaración?

mean outliers robust winsorizing Alun
fuente

25

Ciertamente es posible hacer esto, pero es difícil imaginar una situación en la que tenga sentido hacerlo.

Peter Flom - Restablece a Monica

2

Ya hay varias respuestas más largas, pero es poco probable que el resumen de una oración de @Peter Flom coincida como un resumen.

Nick Cox

44

Ninguna respuesta ha señalado aún el elefante en la sala: aunque el reemplazo de "valores atípicos" por la media preserva el promedio de un conjunto de datos, cambia casi cualquier otra estadística. Incluso cambia las estimaciones del error estándar de la media. En consecuencia, en apoyo del comentario de @Peter Flom, el conjunto de datos resultante no parece útil para ninguna forma confiable de inferencia. (Es concebible que podría ser utilizado no en su propio derecho, pero en los pasos intermedios en un procedimiento iterativo para identificar valores atípicos, lo que explica por qué un procedimiento podría existir en primer lugar.)

whuber

1

@whuber Claramente un punto clave. Lo convertiría en otra respuesta, para que nadie lo lea demasiado rápido. Las personas tentadas por este dispositivo, y evidentemente hay algunas, deben darse cuenta de que (a) no es una buena idea (b) una mala idea.

Nick Cox

1

@ user2357112 La implicación es que la media que se utilizará es la media de los otros valores. El valor atípico, considerado como no confiable, no debe incluirse en el cálculo.

Nick Cox

41

Claramente es posible, pero no está claro que alguna vez podría ser una buena idea.

Vamos a explicar varias formas en que esta es una solución limitada o deficiente:

De hecho, está diciendo que el valor atípico es completamente indigno de confianza, en la medida en que su única suposición posible es que el valor debería ser la media. Si eso es lo que piensas, es probable que sea más honesto solo omitir la observación en cuestión, ya que evidentemente no tienes suficiente información para adivinar mejor.
Sin decir nada más, necesita un criterio o criterios para identificar valores atípicos en primer lugar (como lo implica @Frank Harrell). De lo contrario, este es un procedimiento arbitrario y subjetivo, incluso si se defiende como una cuestión de juicio. Con algunos criterios, es posible que eliminar los valores atípicos de esta manera cree aún más valores atípicos como efecto secundario. Un ejemplo podría ser que los valores atípicos están más que tantas desviaciones estándar de la media. La eliminación de un valor atípico cambia la desviación estándar y ahora pueden calificar nuevos puntos de datos, y así sucesivamente.
Presumiblemente, la media aquí significa la media de todos los demás valores, un punto explícito por @David Marx. La idea es ambigua sin esta estipulación.
El uso de la media puede parecer un procedimiento seguro o conservador, pero cambiar un valor a la media cambiará casi cualquier otra estadística, incluidas las medidas de nivel, escala y forma e indicadores de su incertidumbre, un punto enfatizado por @whuber.
Es posible que la media ni siquiera sea un valor factible: ejemplos simples son cuando los valores son enteros, pero generalmente la media no es un entero.
Incluso con la idea de que usar una medida de resumen es algo prudente, usar la media en lugar de la mediana o cualquier otra medida necesita alguna justificación.
Siempre que haya otras variables, modificar el valor de una variable sin referencia a otras puede hacer que un punto de datos sea anómalo en otros sentidos.

Qué hacer con los valores atípicos es una pregunta abierta y muy difícil. En términos generales, las diferentes soluciones y estrategias tienen un atractivo variable. Aquí hay una lista parcial de posibilidades. El pedido es arbitrario y no pretende transmitir ningún orden en términos de aplicabilidad, importancia o cualquier otro criterio. Estos enfoques tampoco son mutuamente excluyentes.

Una definición (en mi opinión buena) es que "[o] los valores son ejemplos de muestras que causan sorpresa en relación con la mayoría de la muestra" (WN Venables y BD Ripley. 2002. Estadísticas modernas aplicadas con S. New York: Springer, p.119). Sin embargo, la sorpresa está en la mente del espectador y depende de algún modelo tácito o explícito de los datos. Puede haber otro modelo según el cual el valor atípico no es sorprendente, por lo que los datos realmente son (digamos) lognormales o gamma en lugar de lo normal. En resumen, prepárate para (re) considerar tu modelo.
Vaya al laboratorio o al campo y vuelva a realizar la medición. A menudo esto no es factible, pero parecería estándar en varias ciencias.
Prueba si los valores atípicos son genuinos. La mayoría de las pruebas me parecen muy ingeniosas, pero es posible que encuentres una que creas que se adapta a tu situación. La fe irracional de que una prueba es apropiada siempre es necesaria para aplicar una prueba que luego se presenta como quintaesencialmente racional.
Tíralos como cuestión de juicio.
Tírelos usando alguna regla más o menos automatizada (generalmente no "objetiva").
Ignóralos, parcial o completamente. Esto podría ser formal (p. Ej., Recorte) o simplemente una cuestión de dejarlos en el conjunto de datos, pero omitirlos de los análisis como demasiado calientes para manejarlos.
Tire de ellos utilizando algún tipo de ajuste, por ejemplo, Winsorizing.
Restrúyales usando algún otro método de estimación robusto.
Menospreciarlos trabajando en una escala transformada.
Desestimarlos utilizando una función de enlace sin identidad.
Acomódelos ajustando alguna distribución adecuada de cola gruesa, larga o gruesa, sin o con predictores.
Acomode usando un indicador o variable ficticia como un predictor adicional en un modelo.
Evite el problema utilizando algún procedimiento no paramétrico (por ejemplo, basado en rangos).
Controle la incertidumbre implícita mediante el procedimiento basado en bootstrapping, jackknifing o permutation.
Edite para reemplazar un valor atípico con un valor más probable, basado en una lógica determinista. "Una abuela de 18 años es poco probable, pero la persona en cuestión nació en 1932, por lo que presumiblemente tiene 81 años".
Edite para reemplazar un valor atípico imposible o inverosímil utilizando algún método de imputación que actualmente es una magia aceptable no completamente blanca.
Analice con y sin, y vea cuánta diferencia hacen los valores atípicos, estadísticamente, científicamente o prácticamente.
Algo bayesiano. Mi ignorancia previa de lo que prohíbe dar detalles.

EDITAR Esta segunda edición se beneficia de otras respuestas y comentarios. He tratado de marcar mis fuentes de inspiración.

Nick Cox
fuente

1

(+1) buena respuesta. En el lado bayesiano, uno podría hacer muchas cosas, pero en realidad está tratando de construir un modelo de cómo llegó a tener tales valores (el proceso que condujo a lo atípico). Por ejemplo, puede ser algo simple como "cada valor de datos tiene una pequeña probabilidad desconocida de ser de una distribución que es mucho más salvaje que la mayor parte de los datos" y luego poner una distribución previa de esa probabilidad y formalizar alguna opción para ese salvaje distribución y antecedentes de sus parámetros. El efecto es reducir el impacto de los puntos que no se ajustan al modelo.

Glen_b -Reinstala a Mónica el

16

Hay varios problemas implicados por su pregunta.

¿Qué es un "valor atípico"?
¿Debería reemplazarse un "valor atípico"?
¿Qué tiene de especial la media en lugar de alguna otra estimación?
¿Cómo compensaría aumentar la varianza aparente al reemplazarla por un solo valor que hace que la varianza sea demasiado pequeña?
¿Por qué no utilizar estimadores robustos que sean resistentes a los valores atípicos?
¿Es esta una variable independiente o dependiente?

Ninguno de 1-5 tiene una respuesta obvia. Si realmente cree que estos "valores atípicos" están equivocados y no desea utilizar un método estadístico sólido, puede hacer que falten y utilizar la imputación múltiple como una posible solución. Si la variable es una variable dependiente, una opción sólida es la regresión ordinal.

Frank Harrell
fuente

1

+1, buenos puntos. Me intriga la sugerencia de OLR; ¿Hay alguna razón por la que prefiera usar una función de pérdida robusta como el bisquare de Tukey?

gung - Restablece a Monica

2

Y

$Y$

Y

$Y$

9

La propuesta tiene numerosos defectos. Aquí es quizás el más grande.

Suponga que está recopilando datos y ve estos valores:

2, 3, 1

$2, 3, 1$

$6/3 = 2$

Luego viene un valor atípico:

2, 3, 1, 1000

$2, 3, 1, 1000$

Entonces lo reemplazas con la media:

2, 3, 1, 2

$2, 3, 1, 2$

El siguiente número es bueno:

2, 3, 1, 2, 7 7

$2, 3, 1, 2, 7$

Ahora la media es 3. Espere un minuto, la media es ahora 3, pero reemplazamos 1000 con una media de 2, solo porque ocurrió como el cuarto valor. ¿Qué pasa si cambiamos el orden de las muestras?

2, 3, 1, 7 7, 1000

$2, 3, 1, 7, 1000$

$(2 + 3 + 1 + 7)/4 = 13/4$

El problema es que el dato falso que estamos sustituyendo en lugar de 1000 depende de los otros datos. Ese es un problema epistemológico si se supone que las muestras representan mediciones independientes.

$n$ $n$ $n$ $n$ $n$

Básicamente, recortar los resultados que no se ajustan es una cosa (y puede justificarse si se hace de manera consistente de acuerdo con un algoritmo, en lugar de cambiar los cambios de humor del experimentador).

La falsedad de los resultados es objetable por razones filosóficas, epistemológicas y éticas.

Puede haber algunas circunstancias atenuantes, que tienen que ver con cómo se usan los resultados. Por ejemplo, digamos que esta sustitución de valores atípicos por la media actual es parte del algoritmo de una computadora integrada, que le permite implementar un sistema de control de circuito cerrado. (Muestra algunas salidas del sistema, luego ajusta las entradas para lograr el control). Todo es en tiempo real, por lo que debe proporcionarse algo para un período de tiempo determinado en lugar de datos faltantes. Si esta falsificación ayuda a superar los problemas técnicos y garantiza un funcionamiento sin problemas, entonces todo está bien.

Aquí hay otro ejemplo, de telefonía digital: PLC (ocultación de pérdida de paquetes). Se produce una mierda y los paquetes se pierden, pero la comunicación es en tiempo real. PLC sintetiza voces falsas basadas en información de tono reciente de paquetes recibidos correctamente. Entonces, si un hablante decía la vocal "aaa" y luego se perdió un paquete, el PLC puede rellenar el paquete faltante extrapolando el "aaa" durante la duración de la trama (digamos 5 o 10 milisegundos o lo que sea). El "aaa" es tal que se parece a la voz del hablante. Esto es análogo al uso de una "media" para sustituir los valores considerados como malos. Es algo bueno; es mejor que el sonido que entra y sale, y ayuda a la inteligibilidad.

Si la falsificación de datos es parte de un programa de mentir a las personas para ocultar el trabajo fallido, eso es otra cosa.

Entonces, no podemos pensarlo independientemente de la aplicación: ¿cómo se utilizan las estadísticas? ¿Las sustituciones conducirán a conclusiones no válidas? ¿Hay implicaciones éticas?

Luego
fuente

La historia de la telefonía es muy interesante, pero parece una cuestión de interpolación defendible para reemplazar los valores perdidos. La conexión con el reemplazo de valores atípicos es tenue, ya que solo se necesitan operaciones puramente locales y los cambios locales son secundarios al "análisis" de todo el conjunto de datos.

Nick Cox

2

Muchas ideas interesantes aquí (+1). Sin embargo, tenga en cuenta que el procedimiento de reemplazo no es necesariamente secuencial. Uno puede identificar todos los "valores atípicos" a la vez y reemplazarlos todos con la media del resto. Este es un procedimiento consistente similar a Winsorizing.

whuber

6

Este artículo de Cousineau y Chartier discute la sustitución de valores atípicos con la media

http://www.redalyc.org/pdf/2990/299023509004.pdf

Escriben:

Tabachnick y Fidell (2007) sugirieron reemplazar los datos faltantes con la media de los datos restantes en la celda correspondiente. Sin embargo, este procedimiento tenderá a reducir la propagación de la población, hará que la distribución observada sea más leptokurtica y posiblemente aumente la probabilidad de un error tipo I. Una técnica más elaborada, las imputaciones múltiples, implica reemplazar valores atípicos (o datos faltantes) con posibles valores (Elliott y Stettler, 2007; Serfling y Dang, 2009).

También hay un paquete R "valores atípicos" que tiene la función de reemplazar los valores atípicos con la media. También vi una serie de resultados en mi búsqueda en Google que implica que SPSS también tiene esa función, pero no estoy familiarizado con ese programa. Quizás si sigue los hilos puede descubrir la base técnica para la práctica.

Referencias

Cousineau, D. y Chartier, S. (2010). Detección y tratamiento de valores atípicos: una revisión. Revista Internacional de Investigación Psicológica, 3 (1), 58-67.

Thomas
fuente

Busqué en su referencia todas las apariciones de la palabra "media" y no pude encontrar ningún lugar donde se discuta la sustitución de valores atípicos por la media. Si me perdí algo, ¿podría indicar con mayor precisión dónde ocurre esta discusión?

whuber

1

Cambié el enlace porque no pude hacerlo funcionar. En la página 9 del documento, el autor dice: "Deben eliminarse los valores atípicos que son claramente el resultado de una actividad espuria. Sin embargo, en diseños multivariados, hacerlo puede provocar la eliminación de demasiados participantes hasta el punto de que el análisis ya no se puede realizar "Tabachnick y Fidell (2007) sugirieron reemplazar los datos faltantes con la media de los datos restantes en la celda correspondiente".

Thomas

2

Gracias: lo veo ahora. Sin embargo, describir esto como una "discusión", lo que sugiere que puede haber cierto equilibrio de pros y contras, puede ser algo engañoso, porque este pasaje menciona el procedimiento de sustitución de la media (a) solo para aplicaciones multivariadas y (b) únicamente para señalar sus defectos, terminando con una sugerencia de considerar la imputación múltiple en su lugar. (Curiosamente, la referencia del artículo para este procedimiento ni siquiera aparece en su bibliografía.)

whuber

55

Sí, es extraño que la referencia citada no esté en el babero. Parece ser el libro "Diseños experimentales con ANOVA". Estaba tratando de responder a la solicitud original y proporcionar referencias para la práctica de sustituir la media por valores atípicos. Ese documento fue todo lo que pude encontrar en una búsqueda rápida y esperaba que pudiera proporcionar pistas para que el OP pudiera encontrar una respuesta más completa.

Thomas

4

Lo principal a tener en cuenta cuando se trata de valores atípicos es si están proporcionando información útil. Si espera que ocurran de forma regular, eliminarlos de los datos garantizará que su modelo nunca los prediga. Por supuesto, depende de lo que desee que haga el modelo, pero vale la pena tener en cuenta que no necesariamente debe abandonarlos. Si contienen información importante, puede considerar un modelo que pueda darles cuenta. Una forma sencilla de hacerlo es tomar registros de las variables, que pueden explicar las relaciones de la ley de poder. Alternativamente, podría usar un modelo que los represente con una distribución de errores de cola gruesa.

Si desea cortarlos, las formas habituales son soltarlos o Winsorise para eliminar los valores extremos. No tengo un libro de texto a mano, pero los enlaces de Wiki allí se refieren a algunos si desea leer más. La mayoría de los textos sobre estadísticas aplicadas deben tener una sección sobre valores atípicos.

jmz
fuente

3

Soy consciente de dos enfoques similares relacionados en estadística.

$1%$
Winsorización: similar a la media recortada, solo modifica las observaciones extremas. Sin embargo, en lugar de dejarlos caer, los reemplaza con la observación no extrema más grande / más pequeña. Esto a menudo funciona un poco mejor que recortar.

Para ejemplos más detallados, ver Wikipedia:

https://en.wikipedia.org/wiki/Trimmed_estimator

https://en.wikipedia.org/wiki/Winsorising

Tenga en cuenta que esto funciona bien para algunas estadísticas, como cuando se calcula la media. La media recortada / winorizada es a menudo una mejor estimación de la media real que la media artihmetic. En otros casos, puede arruinar sus estadísticas. Por ejemplo, al calcular la varianza, el recorte siempre subestimará su verdadera varianza. La Winsorización, suponiendo que de hecho algunas de las observaciones extremas son defectuosas, funcionará un poco mejor entonces (probablemente todavía se subestime, pero no tanto).

No veo cómo reemplazar aquí los valores extremos con la media.

Sin embargo, hay otra práctica relacionada: la imputación del valor faltante . Asumiendo que su valor atípico es defectuoso, datos inútiles, entonces lo elimine. Cuando realiza la imputación, un valor sustituto típico sería la media o el modo:

https://en.wikipedia.org/wiki/Imputation_%28statistics%29

Anony-Mousse
fuente

1

Recortar asimétricamente es una táctica conocida y defendible.

Nick Cox

2

El enfoque tradicional para manejar los valores atípicos es simplemente eliminarlos de modo que su modelo esté entrenado solo con datos "buenos".

Tenga en cuenta que el valor medio se ve afectado por la presencia de esos valores atípicos. Si reemplaza los valores atípicos con la media calculada después de que los valores atípicos se eliminaron de su conjunto de datos , no habrá diferencia ya que la línea de regresión (de la regresión lineal simple) pasará a través de la media de sus datos de entrenamiento de todos modos (esto reducirá la varianza de su sin embargo, es probable que sea lo contrario de lo que desea dado que sabe que hay valores atípicos).

El efecto que tendrá su enfoque en el modelo depende de la influencia (apalancamiento) del valor atípico. Recomiendo contra el enfoque que sugiera en lugar de simplemente eliminar el punto por completo.

David Marx
fuente

44

La eliminación de datos causará un sesgo a menos que el procedimiento para la eliminación sea objetivo y ese mismo procedimiento se aplique a todos los datos futuros para los que se obtengan predicciones.

Frank Harrell

0

Sí, los valores atípicos se pueden reemplazar en muchas formas, por ejemplo, tomemos un conjunto de datos del tamaño de las alturas humanas, digamos que tenemos algunos valores atípicos como 500 cm y 400 cm, entonces podemos reemplazar esos puntos de datos que aparecen en el conjunto de datos debido a algún error causado durante la grabación de los datos. así que las opciones que puede probar son 1. reemplazarlo con la mediana del color completo de los datos (no la media, ya que es propenso a valores atípicos). 2. reemplace con el punto de datos más frecuente en la columna. 3. Si se trata de valores categoriales, puede intentar la codificación de respuesta (en la que registra la probabilidad de la palabra o los valores que se producen por el número total de palabras)

Sujit Jena
fuente

Reemplazar valores atípicos con media

Respuestas:

Referencias