¿Qué son los "fringeliers"?

8

Recientemente recibí un comentario de un revisor de un envío de una revista que me pidió que

Informe cómo traté con los valores atípicos y los fringeliers .

No había oído hablar del término "fringeliers" y cuando busqué en Google, había algunos artículos, pero ninguna definición concisa. Así que pensé que sería bueno tener una pregunta como esta que podría aclarar qué son los "fringeliers" y proporcionar una definición tanto para mí como para las futuras personas que hacen la misma pregunta.

Jeromy Anglim
fuente
Aquí hay una respuesta propuesta cuando envía su revisión: "Trato con los fringeliers teniendo en cuenta sus comentarios sobre mi manuscrito y revisando mi documento en consecuencia". ;-)
Stephan Kolassa

Respuestas:

10

Fringeliers parece definirse como un tipo de valor atípico menos extremo. Es decir, datos sobre los márgenes de la distribución.

Por ejemplo, si definiera un límite para valores atípicos, los fringeliers podrían operacionalizarse para ser aquellos valores que están cerca de cualquier lado del límite (por ejemplo, para un límite de 3 SD, entre 2.7 y 3.3 SD de la media).

Osborne y Overbay (2008) escriben lo siguiente:

Aunque las definiciones varían, un valor atípico generalmente se considera un punto de datos que está muy fuera de la norma para una variable o población (por ejemplo, Jarrell, 1994; Rasmussen, 1988; Stevens, 1984). Hawkins (1980) describió un valor atípico como una observación que "se desvía tanto de otras observaciones como para despertar sospechas de que fue generado por un mecanismo diferente" (p. 1). Los valores atípicos también se han definido como valores que son "dudosos a los ojos del investigador" (Dixon, 1950, p. 488) y contaminantes (Wainer, 1976).

Y pase a introducir el término "fringelier" de Wainer (1976)

Wainer (1976) también introdujo el concepto de "fringelier", refiriéndose a "eventos inusuales que ocurren con más frecuencia que raramente" (p. 286). Estos puntos se encuentran cerca de tres desviaciones estándar de la media y, por lo tanto, pueden tener una influencia desproporcionadamente fuerte en las estimaciones de los parámetros, pero no son tan obvios o fáciles de identificar como valores atípicos comunes debido a su relativa proximidad al centro de distribución.

Algunos ejemplos:

En algunos contextos, los valores atípicos sugieren que los datos no son válidos. Por ejemplo, si la altura de un hombre se registra como 8 pies de alto (digamos 6.5 SD por encima de la media), esta es probablemente una medida no válida. Por el contrario, si la altura de alguien se registra como 6 pies y 10 pulgadas de alto (3 SD por encima de la media, un flequillo), esta podría ser una medición válida, pero igualmente, podría sugerir un problema con la medición, ya que esto es bastante raro. El punto es que determinar si un valor es inválido se vuelve más difícil, menos extremo se vuelve el valor.

En otros contextos, los valores atípicos son una preocupación porque tienen una influencia excesiva en las estimaciones de parámetros, particularmente cuando se usan métodos estadísticos estándar que usan mínimos cuadrados, etc. Por lo tanto, los fringeliers pueden tener un mayor impacto que la mayoría de los casos, pero las decisiones sobre si conservar los datos o no para fines de modelado pueden ser menos claros.

Referencias

  • Osborne, J. y Overbay, A. (2008). Mejores prácticas en la limpieza de datos: cómo los valores atípicos y los "fringeliers" pueden aumentar las tasas de error y disminuir la calidad y la precisión de sus resultados. En Osborne, J. Mejores prácticas en métodos cuantitativos (pp. 205-213). Thousand Oaks, CA: SAGE Publications, Inc. doi: 10.4135 / 9781412995627
  • Wainer, H. Estadísticas de Robust: una encuesta y algunas recetas1 (4) 285-312 (1976).
Jeromy Anglim
fuente
Supongo que la diferencia solo puede manifestarse en cómo se tratan. ¿Las personas notan la diferencia sugiriendo tratar al "fringelier" con una penalización suave mientras tratan al atípico con una penalización dura como el descarte directo?
Hans
0

Creo que necesitaría considerar la frecuencia de los fringeliers con los puntos de datos que residen debajo del límite. Si la proporción de fringeliers a datos "válidos" es alta (en función de algunos factores), quizás el límite no se define de manera realista. Imagina que estás en una tienda de campaña, y los únicos osos en el área están a 3 millas de distancia; pero hay 500 de ellos! :)

Jim
fuente
Esto no proporciona una definición.
Michael R. Chernick