¿Cuáles son los méritos relativos de los datos de Winsorizing vs. Trimming?

31

Winsorizar datos significa reemplazar los valores extremos de un conjunto de datos con un cierto valor de percentil de cada extremo, mientras que Recortar o Truncar implica eliminar esos valores extremos.

Siempre veo ambos métodos discutidos como una opción viable para disminuir el efecto de los valores atípicos al calcular estadísticas como la media o la desviación estándar, pero no he visto por qué uno podría elegir uno sobre el otro.

¿Existen ventajas o desventajas relativas al uso de Winsorizing o Trimming? ¿Hay ciertas situaciones en las que un método sería preferible? ¿Se usa con mayor frecuencia en la práctica o son básicamente intercambiables?

Brian
fuente
2
La terminología aquí es engañosa. Recortar significa ignorar valores extremos, alguna fracción en cada cola. Eso no implica la eliminación o caída de valores en las colas, entre otras cosas porque podría, y generalmente debería, incluirlos en otros análisis. El término truncamiento se reserva mejor para otros significados. Ver, por ejemplo, en.wikipedia.org/wiki/Truncation_(statistics)
Nick Cox

Respuestas:

11

En una pregunta diferente, pero relacionada, sobre el recorte que acabo de encontrar, una respuesta tenía la siguiente idea útil de por qué uno podría usar winorizing o recorte:

Si toma la distribución recortada, declara explícitamente: no estoy interesado en los valores atípicos / las colas de la distribución. Si cree que los "valores atípicos" son realmente valores atípicos (es decir, no pertenecen a la distribución, pero son de "otro tipo"), entonces recorte. Si crees que pertenecen a la distribución, pero quieres tener una distribución menos sesgada, podrías pensar en la distribución ganadora.

Tengo curiosidad por saber si hay un enfoque más definitivo, pero la lógica anterior suena razonable.

Brian
fuente
4

¡Una buena pregunta que se enfrenta muy a menudo en todos los campos! En cualquier caso, técnicamente los está eliminando del conjunto de datos.

Sé que es una práctica común cuando se trata de encontrar una tendencia gráfica para usar una forma de truncamiento: usar todo el conjunto de datos para propósitos de trazado, pero luego excluir los valores extremos para la interpretación.

El problema con 'winsorizing' es que las partes que agrega se llenan automáticamente, es decir, se originan en el conjunto de datos y, por lo tanto, solo lo admiten. Existen problemas similares si observa el trabajo de validación cruzada / clasificación en el aprendizaje automático, al decidir cómo utilizar la formación y los conjuntos de datos de prueba.

En cualquier caso, no he encontrado un enfoque estandarizado: siempre es específico de los datos. Puede intentar averiguar qué percentil sus datos (los valores atípicos) están causando un porcentaje dado de la volatilidad / st. desviación, y encuentre un equilibrio entre reducir esa volatilidad pero retener la mayor cantidad de datos posible.

n1k31t4
fuente
66
Como en mi comentario anterior, "eliminarlos del conjunto de datos" es demasiado fuerte aquí. Recortar o Winsorizing solo significa lo que hace, ignorando o reemplazando según sea posible, para un cierto cálculo. No está obligado a eliminar los valores de cola del conjunto de datos, como si estuviera arrojando fruta podrida. Por ejemplo, ante posibles valores atípicos, puede hacer un análisis de los datos a medida que se presentan y un análisis basado en el recorte y ver qué diferencia hace.
Nick Cox
-1

Esta es una buena pregunta, y una que me he enfrentado. En los casos en que tiene un conjunto de datos grande o, con mayor precisión, un conjunto de datos que varía en gran medida, donde la minoría de los valores de datos varían a gran escala (pero se requiere que se muestren), y la mayoría del conjunto de datos está dentro de una banda estrecha, de modo que si los datos se trazan como están, los detalles donde se encuentra la mayoría de los datos se pierden, y la normalización o la estandarización no muestran una diferenciación adecuada (al menos visualmente), o, en su lugar, se requieren datos sin procesar, luego truncar o ganar la victoria. Los valores de datos extremos ayudan a una mejor visualización de datos.

huésped
fuente
Es una buena pregunta, pero no la respondes. Simplemente dice que truncar o Winsorizing puede ayudar a la visualización.
Nick Cox el
-2

O(norteIniciar sesiónnorte)O(norte)(1,2,3,4 4,4 4)(2+2+3+4 4+4 4)/ /5 5(2+3+4 4)/ /3(2+3+4 4+4 4)/ /4 4

Mark Lakata
fuente
1
O(norteIniciar sesiónnorte)O(norte)
Estás en lo correcto. Escribí mal mi publicación original. A veces los dedos mecanográficos y el cerebro no están sincronizados. Quería decir que para calcular correctamente una media truncada verdadera , debe ordenar todos los elementos de datos. Creo que esto sigue siendo cierto. He actualizado por respuesta.
Mark Lakata
2
Esto parece implicar que Winsorizing significa Winsorizing 25% en cada cola. Puede Winsorize tanto o tan poco como parezca apropiado.
Nick Cox