Bajo una definición clásica de un valor atípico como un punto de datos fuera del 1.5 * IQR desde el cuartil superior o inferior, se supone una distribución no sesgada. Para distribuciones sesgadas (exponencial, Poisson, geométrica, etc.), ¿es la mejor manera de detectar un valor atípico mediante el análisis de una transformación de la función original?
Por ejemplo, las distribuciones gobernadas libremente por una distribución exponencial, podrían transformarse con una función de registro, ¿en qué punto es aceptable buscar valores atípicos basados en la misma definición IQR?
1.5*IQR
definición de un valor atípico no se acepta universalmente. Intente descargar su pregunta y ampliar el problema que está tratando de resolver.Respuestas:
Esta es la regla para identificar puntos fuera de los extremos de los bigotes en un diagrama de caja. El propio Tukey sin duda se opondría a llamarlos valores atípicos sobre esta base (no necesariamente consideró los puntos fuera de esos límites como valores atípicos). Estos serían más bien puntos que, si se esperaba que sus datos fueran de una distribución algo similar a una distribución normal, uno podría estar sujeto a una investigación adicional (como verificar que no haya transpuesto dos dígitos, por ejemplo), como máximo estos podrían ser posibles valores atípicos. Como Nick Cox señala en los comentarios bajo esta respuesta , una cola de muchos de estos puntos se tomaría más como un indicador de que una reexpresión podría ser adecuada que una indicación de la necesidad de considerar los puntos como valores atípicos.
Supuse que por 'no sesgado' te refieres a simétrico. Entonces la suposición es más que eso. Una distribución de cola gruesa pero simétrica podría tener muchos puntos fuera de los límites de esa regla.
Eso depende de lo que constituye un valor atípico para sus propósitos. No existe una definición única que sea adecuada para cada propósito; de hecho, en general, probablemente sea mejor hacer otras cosas que (digamos) elegir valores atípicos y omitirlos.
Para el exponencial o geométrico, puede hacer un cálculo similar al de un diagrama de caja, pero que identificaría una fracción similar solo en la cola derecha (no tendrá puntos bajos identificados en un exponencial o geométrico) † .. o podrías hacer otra cosa.†
En muestras grandes, el diagrama de caja marca aproximadamente el 0,35% de los puntos en cada extremo, o aproximadamente el 0,7% en total. Para un exponencial, puede marcar algunos múltiplos de la mediana, por ejemplo. Si desea etiquetar aproximadamente el 0.7% de los puntos en total para un exponencial real, eso sugeriría marcar puntos más allá de aproximadamente 7.1 veces la mediana.†
Los puntos de marca por encima de 7.1 veces la mediana para n = 1000 generalmente alcanzarán entre 0.4% y 1.1% de los valores:
Eso depende totalmente de lo que quieres decir con "aceptable". Tenga en cuenta, sin embargo, que -
i) la distribución resultante no es realmente simétrica, sino claramente sesgada a la izquierda.
Como resultado, generalmente solo marcará puntos en el extremo izquierdo (es decir, cerca de cero, donde espera que los valores exponenciales estén de todos modos) en lugar de en el derecho (donde podrían estar los "valores atípicos"), a menos que realmente sean extremo.
ii) la idoneidad de dicha regla dependerá en gran medida de lo que esté haciendo.
Si le preocupa el extraño valor extraño que afecta su inferencia, en general, probablemente sea mejor usar procedimientos sólidos que identificar valores atípicos de manera formal.
Si realmente desea utilizar una regla basada en la normalidad para datos exponenciales o de Poisson transformados, al menos sugeriría aplicarla a la raíz cuadrada ‡ para un Poisson (siempre que la media no sea demasiado pequeña, debería ser más o menos normal) y la raíz cúbica o incluso la cuarta raíz para la exponencial (y quizás, por extensión, la geométrica).‡
o tal vez √‡ , como en latransformación AnscombeX+ 38-----√
Para un exponencial, en muestras grandes, el enfoque de raíz cúbica tenderá a marcar puntos solo en la cola superior (aproximadamente a la misma velocidad que los marca en la cola superior para un normal) y el enfoque de cuarta raíz marca puntos en ambas colas (un poco más en la cola inferior, en total a algo cerca del 40% de la tasa que lo hace para un normal) De las posibilidades, la raíz cúbica tiene más sentido para mí que las otras dos, pero no necesariamente recomendaría usar esto como una regla dura y rápida.
fuente
Contestaré sus preguntas en el orden opuesto en que las hizo, para que la exposición proceda de lo específico a lo general.
Primero, consideremos una situación en la que puede suponer que, a excepción de una minoría de valores atípicos, la mayor parte de sus datos puede describirse bien mediante una distribución conocida (en su caso, la exponencial).
Los estimadores MLE habituales de los parámetros son [0, p 506]:
y
Aquí hay un ejemplo en
R
:Una alternativa al MLE sin procesar es (a) encontrar los valores atípicos utilizando una regla de identificación de valores atípicos robustos , (b) ponerlos a un lado como datos espurios y (c) calcular el MLE en la parte no espuria de la muestra.
La más conocida de estas robustas reglas de identificación de valores atípicos es la regla med / mad propuesta por Hampel [3], quien la atribuyó a Gauss (ilustré esta regla aquí ). En la regla med / mad, el umbral de rechazo se basa en el supuesto de que las observaciones genuinas en su muestra están bien aproximadas por una distribución normal.
Por supuesto, si tiene información adicional (como saber que la distribución de las observaciones genuinas está bien aproximada por una distribución de Poisson como en este ejemplo ), no hay nada que le impida transformar sus datos y usar la regla de rechazo de valores atípicos de referencia (el med / mad) pero esto me parece un poco incómodo transformar los datos para preservar lo que, después de todo, es una regla ad-hoc.
Me parece mucho más lógico preservar los datos pero adaptar las reglas de rechazo. Entonces, aún usaría el procedimiento de 3 pasos que describí en el primer enlace anterior, pero con el umbral de rechazo adaptado a la distribución, sospecha que tiene la buena parte de los datos. A continuación, doy la regla de rechazo en situaciones donde las observaciones genuinas están bien ajustadas por una distribución exponencial. En este caso, puede construir buenos umbrales de rechazo utilizando la siguiente regla:
2) rechazar como espurias todas las observaciones fuera de [2, p 188]
(el factor 9 en la regla anterior se obtiene como el 7.1 en la respuesta de Glen_b anterior, pero utilizando un límite superior. El factor (1 + 2 / n) es un factor de corrección de muestra pequeño que se obtuvo mediante simulaciones en [2]. Para tamaños de muestra lo suficientemente grandes, es esencialmente igual a 1).
usando esta regla en los ejemplos anteriores, obtendría:
En el tercer ejemplo:
Ahora, para el caso general en el que no tiene una buena distribución de candidatos para ajustarse al grueso de sus observaciones más allá de saber que una distribución simétrica no funcionará, puede usar el diagrama de caja ajustado [4]. Esta es una generalización del diagrama de caja que tiene en cuenta una medida (no paramétrica y atípica robusta) de asimetría de sus datos (de modo que cuando la mayor parte de los datos es simétrica se colapsa hasta el diagrama de caja habitual). También puede consultar esta respuesta para ver una ilustración.
fuente
Primero, cuestionaría la definición, clásica o no. Un "valor atípico" es un punto sorprendente. Usar cualquier regla particular (incluso para distribuciones simétricas) es una idea defectuosa, especialmente hoy en día cuando hay tantos conjuntos de datos enormes. En un conjunto de datos de (digamos) un millón de observaciones (no tan grande, en algunos campos), habrá muchos casos más allá del límite de 1.5 IQR que cita, incluso si la distribución es perfectamente normal.
En segundo lugar, sugeriría buscar valores atípicos en los datos originales. Casi siempre será más intuitivo. Por ejemplo, con los datos de ingresos, es bastante común tomar registros. Pero incluso aquí buscaría valores atípicos en la escala original (dólares o euros o lo que sea) porque tenemos una mejor idea de tales números. (Si toma registros, sugeriría la base de registro 10, al menos para la detección de valores atípicos, porque es al menos un poco intuitivo).
Tercero, cuando busque valores atípicos, tenga cuidado con el enmascaramiento.
Finalmente, actualmente estoy investigando el algoritmo de "búsqueda hacia adelante" propuesto por Atkinson y Riani para varios tipos de datos y problemas. Esto se ve muy prometedor.
fuente