Detección de valores atípicos en distribuciones sesgadas

Bajo una definición clásica de un valor atípico como un punto de datos fuera del 1.5 * IQR desde el cuartil superior o inferior, se supone una distribución no sesgada. Para distribuciones sesgadas (exponencial, Poisson, geométrica, etc.), ¿es la mejor manera de detectar un valor atípico mediante el análisis de una transformación de la función original?

Por ejemplo, las distribuciones gobernadas libremente por una distribución exponencial, podrían transformarse con una función de registro, ¿en qué punto es aceptable buscar valores atípicos basados en la misma definición IQR?

distributions outliers skewness exponential interquartile Eric
fuente

Hay muchas preguntas en este sitio sobre la evaluación de valores atípicos. Una cosa que debe agregar aquí para obtener una respuesta razonable es lo que realmente está tratando de hacer o descubrir. Pero para empezar, la 1.5*IQRdefinición de un valor atípico no se acepta universalmente. Intente descargar su pregunta y ampliar el problema que está tratando de resolver.

John

La afirmación de que un valor superior a 1,5 IQR es un valor atípico es simplemente una tontería. Los datos en exceso de 1.5 IQR serían completamente consistentes con un número infinito de distribuciones, y a medida que el tamaño de la muestra se vuelve grande, uno podría tener una confianza casi perfecta de que dichos datos NO eran atípicos.

Wolfies

Respuestas:

Bajo una definición clásica de un valor atípico como un punto de datos fuera del 1.5 * IQR desde el cuartil superior o inferior,

Esta es la regla para identificar puntos fuera de los extremos de los bigotes en un diagrama de caja. El propio Tukey sin duda se opondría a llamarlos valores atípicos sobre esta base (no necesariamente consideró los puntos fuera de esos límites como valores atípicos). Estos serían más bien puntos que, si se esperaba que sus datos fueran de una distribución algo similar a una distribución normal, uno podría estar sujeto a una investigación adicional (como verificar que no haya transpuesto dos dígitos, por ejemplo), como máximo estos podrían ser posibles valores atípicos. Como Nick Cox señala en los comentarios bajo esta respuesta , una cola de muchos de estos puntos se tomaría más como un indicador de que una reexpresión podría ser adecuada que una indicación de la necesidad de considerar los puntos como valores atípicos.

se supone una distribución no sesgada.

Supuse que por 'no sesgado' te refieres a simétrico. Entonces la suposición es más que eso. Una distribución de cola gruesa pero simétrica podría tener muchos puntos fuera de los límites de esa regla.

Para distribuciones sesgadas (exponencial, Poisson, geométrica, etc.), ¿es la mejor manera de detectar un valor atípico mediante el análisis de una transformación de la función original?

Eso depende de lo que constituye un valor atípico para sus propósitos. No existe una definición única que sea adecuada para cada propósito; de hecho, en general, probablemente sea mejor hacer otras cosas que (digamos) elegir valores atípicos y omitirlos.

Para el exponencial o geométrico, puede hacer un cálculo similar al de un diagrama de caja, pero que identificaría una fracción similar solo en la cola derecha (no tendrá puntos bajos identificados en un exponencial o geométrico) .. o podrías hacer otra cosa. $^{\dagger}$

En muestras grandes, el diagrama de caja marca aproximadamente el 0,35% de los puntos en cada extremo, o aproximadamente el 0,7% en total. Para un exponencial, puede marcar algunos múltiplos de la mediana, por ejemplo. Si desea etiquetar aproximadamente el 0.7% de los puntos en total para un exponencial real, eso sugeriría marcar puntos más allá de aproximadamente 7.1 veces la mediana. $\dagger$

Los puntos de marca por encima de 7.1 veces la mediana para n = 1000 generalmente alcanzarán entre 0.4% y 1.1% de los valores:

ae <- rexp(1000)
table( ae > 7.1*median(ae) )

FALSE  TRUE 
  993     7

Por ejemplo, las distribuciones gobernadas libremente por una distribución exponencial, podrían transformarse con una función de registro, ¿en qué punto es aceptable buscar valores atípicos basados en la misma definición IQR?

Eso depende totalmente de lo que quieres decir con "aceptable". Tenga en cuenta, sin embargo, que -

i) la distribución resultante no es realmente simétrica, sino claramente sesgada a la izquierda.

ingrese la descripción de la imagen aquí

Como resultado, generalmente solo marcará puntos en el extremo izquierdo (es decir, cerca de cero, donde espera que los valores exponenciales estén de todos modos) en lugar de en el derecho (donde podrían estar los "valores atípicos"), a menos que realmente sean extremo.

ii) la idoneidad de dicha regla dependerá en gran medida de lo que esté haciendo.

Si le preocupa el extraño valor extraño que afecta su inferencia, en general, probablemente sea mejor usar procedimientos sólidos que identificar valores atípicos de manera formal.

Si realmente desea utilizar una regla basada en la normalidad para datos exponenciales o de Poisson transformados, al menos sugeriría aplicarla a la raíz cuadrada para un Poisson (siempre que la media no sea demasiado pequeña, debería ser más o menos normal) y la raíz cúbica o incluso la cuarta raíz para la exponencial (y quizás, por extensión, la geométrica). $^{\ddagger}$

o tal vez $\ddagger$ , como en latransformación Anscombe $\sqrt{X+\frac{3}{8}}$

ingrese la descripción de la imagen aquí

Para un exponencial, en muestras grandes, el enfoque de raíz cúbica tenderá a marcar puntos solo en la cola superior (aproximadamente a la misma velocidad que los marca en la cola superior para un normal) y el enfoque de cuarta raíz marca puntos en ambas colas (un poco más en la cola inferior, en total a algo cerca del 40% de la tasa que lo hace para un normal) De las posibilidades, la raíz cúbica tiene más sentido para mí que las otras dos, pero no necesariamente recomendaría usar esto como una regla dura y rápida.

Glen_b -Reinstate a Monica
fuente

"Una distribución de cola gruesa pero simétrica podría tener muchos puntos fuera de los límites de esa regla". Siempre hay exactamente el 50% de todos los puntos dentro del IQR, ¿no es así?

JulienD

(Q_{1} - 1.5 \times IQR, Q_{3} + 1.5 \times IQR)

$(Q_1-1.5\times \text{IQR},Q_3+1.5\times \text{IQR})$

@Glen_b El umbral de rechazo superior para el exponencial en su respuesta supone que se conoce el parámetro de cambio (o theta). Creo que esto debería mencionarse.

user603

@ user603 El término " distribución exponencial " (ver también aquí ) sin ningún adjetivo de modificación (como "desplazado" o "dos parámetros") se refiere más convencionalmente a la versión de un parámetro. Algunas personas llaman a la versión desplazada "la distribución exponencial", pero eso es relativamente raro; solo un poco más común que llamar a la distribución lognormal desplazada "la distribución lognormal".

Glen_b -Reinstale a Monica el

@ user603 Oh, lo siento, una simple falta de comunicación, en ese caso sí, no creo que tengamos ningún desacuerdo sustancial, donde existe la posibilidad de grandes valores atípicos a la izquierda, el enfoque que mencioné no tiene ningún sentido . Simplemente no estaba tratando de lidiar con cualquier potencial de esa situación (pero en mi defensa, no me pareció que el OP lo considerara como una posibilidad; dudo que tomar registros me hubiera venido a la mente si lo fuera).

Glen_b -Reinstate Monica

Contestaré sus preguntas en el orden opuesto en que las hizo, para que la exposición proceda de lo específico a lo general.

Primero, consideremos una situación en la que puede suponer que, a excepción de una minoría de valores atípicos, la mayor parte de sus datos puede describirse bien mediante una distribución conocida (en su caso, la exponencial).

$x$

{pags}_{X} (X) = σ^{- 1} exp (\frac{- (X - θ)}{σ}), X > 0 0; σ > 0 0

$p_X(x)=\sigma^{-1}\mbox{exp}\left(\frac{-(x-\theta)}{\sigma}\right),\;x>0;\sigma>0$

$x$ $\theta=0$

Los estimadores MLE habituales de los parámetros son [0, p 506]:

\hat{θ} = min_{yo} X_{yo}

$\hat{\theta}=\min_i x_i$

\hat{σ} = {Cra}_{yo} X_{yo} - min_{yo} X_{yo}

$\hat{\sigma}=\mbox{ave}_ix_i-\min_i x_i$

Aquí hay un ejemplo en R:

n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)

$\sigma$ $\approx2.08$

$x_i$ $-x_i$

m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)

$\sigma$ $\approx11.12$ $x_i$ $100x_i$

m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)

$\sigma$ $\approx54$

Una alternativa al MLE sin procesar es (a) encontrar los valores atípicos utilizando una regla de identificación de valores atípicos robustos , (b) ponerlos a un lado como datos espurios y (c) calcular el MLE en la parte no espuria de la muestra.

La más conocida de estas robustas reglas de identificación de valores atípicos es la regla med / mad propuesta por Hampel [3], quien la atribuyó a Gauss (ilustré esta regla aquí ). En la regla med / mad, el umbral de rechazo se basa en el supuesto de que las observaciones genuinas en su muestra están bien aproximadas por una distribución normal.

Por supuesto, si tiene información adicional (como saber que la distribución de las observaciones genuinas está bien aproximada por una distribución de Poisson como en este ejemplo ), no hay nada que le impida transformar sus datos y usar la regla de rechazo de valores atípicos de referencia (el med / mad) pero esto me parece un poco incómodo transformar los datos para preservar lo que, después de todo, es una regla ad-hoc.

Me parece mucho más lógico preservar los datos pero adaptar las reglas de rechazo. Entonces, aún usaría el procedimiento de 3 pasos que describí en el primer enlace anterior, pero con el umbral de rechazo adaptado a la distribución, sospecha que tiene la buena parte de los datos. A continuación, doy la regla de rechazo en situaciones donde las observaciones genuinas están bien ajustadas por una distribución exponencial. En este caso, puede construir buenos umbrales de rechazo utilizando la siguiente regla:

$\theta$

{\hat{θ}}^{'} = {medicina}_{yo} X_{yo} - 3.476 Qn (X) En 2

$\hat{\theta}'=\mbox{med}_ix_i-3.476\mbox{Qn}(x)\ln2$

$\approx3.476$

2) rechazar como espurias todas las observaciones fuera de [2, p 188]

[{\hat{θ}}^{'}, 9 9 (1 + 2 / / norte) {medicina}_{yo} X_{yo} + {\hat{θ}}^{'}]

$[\hat{\theta}',9(1+2/n)\mbox{med}_ix_i+\hat{\theta}']$

(el factor 9 en la regla anterior se obtiene como el 7.1 en la respuesta de Glen_b anterior, pero utilizando un límite superior. El factor (1 + 2 / n) es un factor de corrección de muestra pequeño que se obtuvo mediante simulaciones en [2]. Para tamaños de muestra lo suficientemente grandes, es esencialmente igual a 1).

$\sigma$

{\hat{σ}}^{'} = {Cra}_{yo \in H} X_{yo} - {min}_{yo \in H} X_{yo}

$\hat{\sigma}'=\mbox{ave}_{i\in H}x_i-\mbox{min}_{i\in H}x_i$

$H=\{i:\hat{\theta}'\leq x_i \leq 9(1+2/n)\mbox{med}_ix_i+\hat{\theta}'\}$

usando esta regla en los ejemplos anteriores, obtendría:

library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])

$\sigma$ $\approx2.05$

theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])

$\sigma$ $\approx2.2$

En el tercer ejemplo:

theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])

$\sigma$ $\approx2.2$

$\{i:i\notin H\}$

Ahora, para el caso general en el que no tiene una buena distribución de candidatos para ajustarse al grueso de sus observaciones más allá de saber que una distribución simétrica no funcionará, puede usar el diagrama de caja ajustado [4]. Esta es una generalización del diagrama de caja que tiene en cuenta una medida (no paramétrica y atípica robusta) de asimetría de sus datos (de modo que cuando la mayor parte de los datos es simétrica se colapsa hasta el diagrama de caja habitual). También puede consultar esta respuesta para ver una ilustración.

[0] Johnson NL, Kotz S., Balakrishnan N. (1994). Distribuciones Univariadas Continuas, Volumen 1, 2da Edición.
[1] Rousseeuw PJ y Croux C. (1993). Alternativas a la mediana de la desviación absoluta. Revista de la Asociación Americana de Estadística, vol. 88, núm. 424, págs. 1273-1283.
[2] JK Patel, CH Kapadia y DB Owen, Dekker (1976). Manual de distribuciones estadísticas.
[3] Hampel (1974). La curva de influencia y su papel en la estimación robusta. Revista de la Asociación Americana de Estadística vol. 69, núm. 346 (junio de 1974), págs. 383-393.
[4] Vandervieren, E., Hubert, M. (2004) "Un diagrama de caja ajustado para distribuciones sesgadas". Estadísticas computacionales y análisis de datos Volumen 52, número 12, 15 de agosto de 2008, páginas 5186–5201.

usuario603
fuente

Primero, cuestionaría la definición, clásica o no. Un "valor atípico" es un punto sorprendente. Usar cualquier regla particular (incluso para distribuciones simétricas) es una idea defectuosa, especialmente hoy en día cuando hay tantos conjuntos de datos enormes. En un conjunto de datos de (digamos) un millón de observaciones (no tan grande, en algunos campos), habrá muchos casos más allá del límite de 1.5 IQR que cita, incluso si la distribución es perfectamente normal.

En segundo lugar, sugeriría buscar valores atípicos en los datos originales. Casi siempre será más intuitivo. Por ejemplo, con los datos de ingresos, es bastante común tomar registros. Pero incluso aquí buscaría valores atípicos en la escala original (dólares o euros o lo que sea) porque tenemos una mejor idea de tales números. (Si toma registros, sugeriría la base de registro 10, al menos para la detección de valores atípicos, porque es al menos un poco intuitivo).

Tercero, cuando busque valores atípicos, tenga cuidado con el enmascaramiento.

Finalmente, actualmente estoy investigando el algoritmo de "búsqueda hacia adelante" propuesto por Atkinson y Riani para varios tipos de datos y problemas. Esto se ve muy prometedor.

Peter Flom - Restablece a Monica
fuente