Winsorizar datos significa reemplazar los valores extremos de un conjunto de datos con un cierto valor de percentil de cada extremo, mientras que Recortar o Truncar implica eliminar esos valores extremos.
Siempre veo ambos métodos discutidos como una opción viable para disminuir el efecto de los valores atípicos al calcular estadísticas como la media o la desviación estándar, pero no he visto por qué uno podría elegir uno sobre el otro.
¿Existen ventajas o desventajas relativas al uso de Winsorizing o Trimming? ¿Hay ciertas situaciones en las que un método sería preferible? ¿Se usa con mayor frecuencia en la práctica o son básicamente intercambiables?
Respuestas:
En una pregunta diferente, pero relacionada, sobre el recorte que acabo de encontrar, una respuesta tenía la siguiente idea útil de por qué uno podría usar winorizing o recorte:
Tengo curiosidad por saber si hay un enfoque más definitivo, pero la lógica anterior suena razonable.
fuente
¡Una buena pregunta que se enfrenta muy a menudo en todos los campos! En cualquier caso, técnicamente los está eliminando del conjunto de datos.
Sé que es una práctica común cuando se trata de encontrar una tendencia gráfica para usar una forma de truncamiento: usar todo el conjunto de datos para propósitos de trazado, pero luego excluir los valores extremos para la interpretación.
El problema con 'winsorizing' es que las partes que agrega se llenan automáticamente, es decir, se originan en el conjunto de datos y, por lo tanto, solo lo admiten. Existen problemas similares si observa el trabajo de validación cruzada / clasificación en el aprendizaje automático, al decidir cómo utilizar la formación y los conjuntos de datos de prueba.
En cualquier caso, no he encontrado un enfoque estandarizado: siempre es específico de los datos. Puede intentar averiguar qué percentil sus datos (los valores atípicos) están causando un porcentaje dado de la volatilidad / st. desviación, y encuentre un equilibrio entre reducir esa volatilidad pero retener la mayor cantidad de datos posible.
fuente
Esta es una buena pregunta, y una que me he enfrentado. En los casos en que tiene un conjunto de datos grande o, con mayor precisión, un conjunto de datos que varía en gran medida, donde la minoría de los valores de datos varían a gran escala (pero se requiere que se muestren), y la mayoría del conjunto de datos está dentro de una banda estrecha, de modo que si los datos se trazan como están, los detalles donde se encuentra la mayoría de los datos se pierden, y la normalización o la estandarización no muestran una diferenciación adecuada (al menos visualmente), o, en su lugar, se requieren datos sin procesar, luego truncar o ganar la victoria. Los valores de datos extremos ayudan a una mejor visualización de datos.
fuente
fuente