Esta pregunta fue hecha por mi amigo que no conoce Internet. No tengo antecedentes en estadísticas y he estado buscando en internet esta pregunta.
La pregunta es: ¿es posible reemplazar los valores atípicos con valor medio? si es posible, ¿hay alguna referencia de libro / revistas para respaldar esta declaración?
mean
outliers
robust
winsorizing
Alun
fuente
fuente
Respuestas:
Claramente es posible, pero no está claro que alguna vez podría ser una buena idea.
Vamos a explicar varias formas en que esta es una solución limitada o deficiente:
De hecho, está diciendo que el valor atípico es completamente indigno de confianza, en la medida en que su única suposición posible es que el valor debería ser la media. Si eso es lo que piensas, es probable que sea más honesto solo omitir la observación en cuestión, ya que evidentemente no tienes suficiente información para adivinar mejor.
Sin decir nada más, necesita un criterio o criterios para identificar valores atípicos en primer lugar (como lo implica @Frank Harrell). De lo contrario, este es un procedimiento arbitrario y subjetivo, incluso si se defiende como una cuestión de juicio. Con algunos criterios, es posible que eliminar los valores atípicos de esta manera cree aún más valores atípicos como efecto secundario. Un ejemplo podría ser que los valores atípicos están más que tantas desviaciones estándar de la media. La eliminación de un valor atípico cambia la desviación estándar y ahora pueden calificar nuevos puntos de datos, y así sucesivamente.
Presumiblemente, la media aquí significa la media de todos los demás valores, un punto explícito por @David Marx. La idea es ambigua sin esta estipulación.
El uso de la media puede parecer un procedimiento seguro o conservador, pero cambiar un valor a la media cambiará casi cualquier otra estadística, incluidas las medidas de nivel, escala y forma e indicadores de su incertidumbre, un punto enfatizado por @whuber.
Es posible que la media ni siquiera sea un valor factible: ejemplos simples son cuando los valores son enteros, pero generalmente la media no es un entero.
Incluso con la idea de que usar una medida de resumen es algo prudente, usar la media en lugar de la mediana o cualquier otra medida necesita alguna justificación.
Siempre que haya otras variables, modificar el valor de una variable sin referencia a otras puede hacer que un punto de datos sea anómalo en otros sentidos.
Qué hacer con los valores atípicos es una pregunta abierta y muy difícil. En términos generales, las diferentes soluciones y estrategias tienen un atractivo variable. Aquí hay una lista parcial de posibilidades. El pedido es arbitrario y no pretende transmitir ningún orden en términos de aplicabilidad, importancia o cualquier otro criterio. Estos enfoques tampoco son mutuamente excluyentes.
Una definición (en mi opinión buena) es que "[o] los valores son ejemplos de muestras que causan sorpresa en relación con la mayoría de la muestra" (WN Venables y BD Ripley. 2002. Estadísticas modernas aplicadas con S. New York: Springer, p.119). Sin embargo, la sorpresa está en la mente del espectador y depende de algún modelo tácito o explícito de los datos. Puede haber otro modelo según el cual el valor atípico no es sorprendente, por lo que los datos realmente son (digamos) lognormales o gamma en lugar de lo normal. En resumen, prepárate para (re) considerar tu modelo.
Vaya al laboratorio o al campo y vuelva a realizar la medición. A menudo esto no es factible, pero parecería estándar en varias ciencias.
Prueba si los valores atípicos son genuinos. La mayoría de las pruebas me parecen muy ingeniosas, pero es posible que encuentres una que creas que se adapta a tu situación. La fe irracional de que una prueba es apropiada siempre es necesaria para aplicar una prueba que luego se presenta como quintaesencialmente racional.
Tíralos como cuestión de juicio.
Tírelos usando alguna regla más o menos automatizada (generalmente no "objetiva").
Ignóralos, parcial o completamente. Esto podría ser formal (p. Ej., Recorte) o simplemente una cuestión de dejarlos en el conjunto de datos, pero omitirlos de los análisis como demasiado calientes para manejarlos.
Tire de ellos utilizando algún tipo de ajuste, por ejemplo, Winsorizing.
Restrúyales usando algún otro método de estimación robusto.
Menospreciarlos trabajando en una escala transformada.
Desestimarlos utilizando una función de enlace sin identidad.
Acomódelos ajustando alguna distribución adecuada de cola gruesa, larga o gruesa, sin o con predictores.
Acomode usando un indicador o variable ficticia como un predictor adicional en un modelo.
Evite el problema utilizando algún procedimiento no paramétrico (por ejemplo, basado en rangos).
Controle la incertidumbre implícita mediante el procedimiento basado en bootstrapping, jackknifing o permutation.
Edite para reemplazar un valor atípico con un valor más probable, basado en una lógica determinista. "Una abuela de 18 años es poco probable, pero la persona en cuestión nació en 1932, por lo que presumiblemente tiene 81 años".
Edite para reemplazar un valor atípico imposible o inverosímil utilizando algún método de imputación que actualmente es una magia aceptable no completamente blanca.
Analice con y sin, y vea cuánta diferencia hacen los valores atípicos, estadísticamente, científicamente o prácticamente.
Algo bayesiano. Mi ignorancia previa de lo que prohíbe dar detalles.
EDITAR Esta segunda edición se beneficia de otras respuestas y comentarios. He tratado de marcar mis fuentes de inspiración.
fuente
Hay varios problemas implicados por su pregunta.
Ninguno de 1-5 tiene una respuesta obvia. Si realmente cree que estos "valores atípicos" están equivocados y no desea utilizar un método estadístico sólido, puede hacer que falten y utilizar la imputación múltiple como una posible solución. Si la variable es una variable dependiente, una opción sólida es la regresión ordinal.
fuente
La propuesta tiene numerosos defectos. Aquí es quizás el más grande.
Suponga que está recopilando datos y ve estos valores:
Luego viene un valor atípico:
Entonces lo reemplazas con la media:
El siguiente número es bueno:
Ahora la media es 3. Espere un minuto, la media es ahora 3, pero reemplazamos 1000 con una media de 2, solo porque ocurrió como el cuarto valor. ¿Qué pasa si cambiamos el orden de las muestras?
El problema es que el dato falso que estamos sustituyendo en lugar de 1000 depende de los otros datos. Ese es un problema epistemológico si se supone que las muestras representan mediciones independientes.
Básicamente, recortar los resultados que no se ajustan es una cosa (y puede justificarse si se hace de manera consistente de acuerdo con un algoritmo, en lugar de cambiar los cambios de humor del experimentador).
La falsedad de los resultados es objetable por razones filosóficas, epistemológicas y éticas.
Puede haber algunas circunstancias atenuantes, que tienen que ver con cómo se usan los resultados. Por ejemplo, digamos que esta sustitución de valores atípicos por la media actual es parte del algoritmo de una computadora integrada, que le permite implementar un sistema de control de circuito cerrado. (Muestra algunas salidas del sistema, luego ajusta las entradas para lograr el control). Todo es en tiempo real, por lo que debe proporcionarse algo para un período de tiempo determinado en lugar de datos faltantes. Si esta falsificación ayuda a superar los problemas técnicos y garantiza un funcionamiento sin problemas, entonces todo está bien.
Aquí hay otro ejemplo, de telefonía digital: PLC (ocultación de pérdida de paquetes). Se produce una mierda y los paquetes se pierden, pero la comunicación es en tiempo real. PLC sintetiza voces falsas basadas en información de tono reciente de paquetes recibidos correctamente. Entonces, si un hablante decía la vocal "aaa" y luego se perdió un paquete, el PLC puede rellenar el paquete faltante extrapolando el "aaa" durante la duración de la trama (digamos 5 o 10 milisegundos o lo que sea). El "aaa" es tal que se parece a la voz del hablante. Esto es análogo al uso de una "media" para sustituir los valores considerados como malos. Es algo bueno; es mejor que el sonido que entra y sale, y ayuda a la inteligibilidad.
Si la falsificación de datos es parte de un programa de mentir a las personas para ocultar el trabajo fallido, eso es otra cosa.
Entonces, no podemos pensarlo independientemente de la aplicación: ¿cómo se utilizan las estadísticas? ¿Las sustituciones conducirán a conclusiones no válidas? ¿Hay implicaciones éticas?
fuente
Este artículo de Cousineau y Chartier discute la sustitución de valores atípicos con la media
http://www.redalyc.org/pdf/2990/299023509004.pdf
Escriben:
También hay un paquete R "valores atípicos" que tiene la función de reemplazar los valores atípicos con la media. También vi una serie de resultados en mi búsqueda en Google que implica que SPSS también tiene esa función, pero no estoy familiarizado con ese programa. Quizás si sigue los hilos puede descubrir la base técnica para la práctica.
Referencias
fuente
Lo principal a tener en cuenta cuando se trata de valores atípicos es si están proporcionando información útil. Si espera que ocurran de forma regular, eliminarlos de los datos garantizará que su modelo nunca los prediga. Por supuesto, depende de lo que desee que haga el modelo, pero vale la pena tener en cuenta que no necesariamente debe abandonarlos. Si contienen información importante, puede considerar un modelo que pueda darles cuenta. Una forma sencilla de hacerlo es tomar registros de las variables, que pueden explicar las relaciones de la ley de poder. Alternativamente, podría usar un modelo que los represente con una distribución de errores de cola gruesa.
Si desea cortarlos, las formas habituales son soltarlos o Winsorise para eliminar los valores extremos. No tengo un libro de texto a mano, pero los enlaces de Wiki allí se refieren a algunos si desea leer más. La mayoría de los textos sobre estadísticas aplicadas deben tener una sección sobre valores atípicos.
fuente
Soy consciente de dos enfoques similares relacionados en estadística.
Para ejemplos más detallados, ver Wikipedia:
https://en.wikipedia.org/wiki/Trimmed_estimator
https://en.wikipedia.org/wiki/Winsorising
Tenga en cuenta que esto funciona bien para algunas estadísticas, como cuando se calcula la media. La media recortada / winorizada es a menudo una mejor estimación de la media real que la media artihmetic. En otros casos, puede arruinar sus estadísticas. Por ejemplo, al calcular la varianza, el recorte siempre subestimará su verdadera varianza. La Winsorización, suponiendo que de hecho algunas de las observaciones extremas son defectuosas, funcionará un poco mejor entonces (probablemente todavía se subestime, pero no tanto).
No veo cómo reemplazar aquí los valores extremos con la media.
Sin embargo, hay otra práctica relacionada: la imputación del valor faltante . Asumiendo que su valor atípico es defectuoso, datos inútiles, entonces lo elimine. Cuando realiza la imputación, un valor sustituto típico sería la media o el modo:
https://en.wikipedia.org/wiki/Imputation_%28statistics%29
fuente
El enfoque tradicional para manejar los valores atípicos es simplemente eliminarlos de modo que su modelo esté entrenado solo con datos "buenos".
Tenga en cuenta que el valor medio se ve afectado por la presencia de esos valores atípicos. Si reemplaza los valores atípicos con la media calculada después de que los valores atípicos se eliminaron de su conjunto de datos , no habrá diferencia ya que la línea de regresión (de la regresión lineal simple) pasará a través de la media de sus datos de entrenamiento de todos modos (esto reducirá la varianza de su sin embargo, es probable que sea lo contrario de lo que desea dado que sabe que hay valores atípicos).
El efecto que tendrá su enfoque en el modelo depende de la influencia (apalancamiento) del valor atípico. Recomiendo contra el enfoque que sugiera en lugar de simplemente eliminar el punto por completo.
fuente
Sí, los valores atípicos se pueden reemplazar en muchas formas, por ejemplo, tomemos un conjunto de datos del tamaño de las alturas humanas, digamos que tenemos algunos valores atípicos como 500 cm y 400 cm, entonces podemos reemplazar esos puntos de datos que aparecen en el conjunto de datos debido a algún error causado durante la grabación de los datos. así que las opciones que puede probar son 1. reemplazarlo con la mediana del color completo de los datos (no la media, ya que es propenso a valores atípicos). 2. reemplace con el punto de datos más frecuente en la columna. 3. Si se trata de valores categoriales, puede intentar la codificación de respuesta (en la que registra la probabilidad de la palabra o los valores que se producen por el número total de palabras)
fuente