¿Existe una variante de diagrama de caja para los datos distribuidos de Poisson?

33

¿Me gustaría saber si hay una variante de diagrama de caja adaptada a los datos distribuidos de Poisson (o posiblemente otras distribuciones)?

Con una distribución gaussiana, los bigotes colocados en L = Q1 - 1.5 IQR y U = Q3 + 1.5 IQR, el diagrama de caja tiene la propiedad de que habrá aproximadamente tantos valores atípicos bajos (puntos por debajo de L) como valores atípicos altos (puntos por encima de U )

Sin embargo, si los datos están distribuidos por Poisson, esto ya no se mantiene debido a la asimetría positiva que obtenemos Pr (X <L) <Pr (X> U) . ¿Hay alguna forma alternativa de colocar los bigotes de modo que 'encajen' en una distribución de Poisson?

caas
fuente
2
¿Intenta registrarlo primero? También puede decir a qué quiere que su diagrama de caja esté 'bien adaptado'.
conjugateprior
2
Hay un problema al hacer dicha modificación: las personas están acostumbradas a la definición estándar de diagrama de caja y lo más probable es que la asuman al mirar la trama, les guste o no. Por lo tanto, esto puede traer más confusión que ganancia.
@mbq:> lo que ocurre con boxplots es que combinan dos características en una sola herramienta; una función de visualización de datos (la caja) y una función de detección de valores atípicos (los bigotes). Lo que usted dice es absolutamente cierto de lo primero, pero lo último podría usar un ajuste sesgado.
user603
@conjugateprior Aquí hay una muestra de Poisson: 0, 0, 1, 0, 1, 2, 0, 0, 1, 0, 0 ... ¿notas un problema con solo tomar registros?
Glen_b -Reinstala a Monica
@Glen_b Por eso es un comentario, no una respuesta. Y por qué tiene dos partes.
conjugateprior

Respuestas:

31

Los diagramas de caja no fueron diseñados para garantizar una baja probabilidad de exceder los extremos de los bigotes en todos los casos: están destinados, y generalmente se usan, como caracterizaciones gráficas simples de la mayor parte de un conjunto de datos. Como tal, están bien incluso cuando los datos tienen distribuciones muy asimétricas (aunque es posible que no revelen tanta información como lo hacen sobre distribuciones aproximadamente sin sesgar).

Cuando los diagramas de caja se sesgan, como lo harán con una distribución de Poisson, el siguiente paso es volver a expresar la variable subyacente (con una transformación monotónica y creciente) y volver a dibujar los diagramas de caja. Debido a que la varianza de una distribución de Poisson es proporcional a su media, una buena transformación para usar es la raíz cuadrada.

Cada diagrama de caja muestra 50 iid extraídos de una distribución de Poisson con intensidad dada (del 1 al 10, con dos ensayos para cada intensidad). Tenga en cuenta que la asimetría tiende a ser baja.

diagramas de caja lado a lado

Los mismos datos en una escala de raíz cuadrada tienden a tener diagramas de caja que son ligeramente más simétricos y (a excepción de la intensidad más baja) tienen IQR aproximadamente iguales independientemente de la intensidad).

diagramas de caja de datos transformados

En resumen, no cambie el algoritmo de diagrama de caja: en su lugar, vuelva a expresar los datos.


Por cierto, las posibilidades relevantes para calcular son las siguientes: ¿cuál es la probabilidad de que una variante normal independiente supere la valla superior (inferior) ( ) como se estima a partir de sorteos independientes de la misma distribución? U L nXULn Esto explica el hecho de que las cercas en un diagrama de caja no se calculan a partir de la distribución subyacente, sino que se estiman a partir de los datos. ¡En la mayoría de los casos, las posibilidades son mucho mayores al 1%! Por ejemplo, aquí (basado en 10,000 pruebas de Monte-Carlo) hay un histograma de las posibilidades de registro (base 10) para el caso :n=9

histograma de posibilidades

(Debido a que la distribución normal es simétrica, este histograma se aplica a ambas cercas). El logaritmo de 1% / 2 es aproximadamente -2.3. Claramente, la mayoría de las veces la probabilidad es mayor que esto. ¡Aproximadamente el 16% del tiempo supera el 10%!

Resulta (no saturaré esta respuesta con los detalles) que las distribuciones de estas posibilidades son comparables al caso normal (para pequeña ) incluso para distribuciones de intensidad de Poisson tan bajas como 1, lo cual es bastante sesgado. La principal diferencia es que generalmente es menos probable encontrar un valor atípico bajo y un poco más probable de encontrar un valor atípico alto.n

whuber
fuente
1
+1, no había visto este hilo antes. Hice (creo) el mismo punto que se discute aquí después de la regla horizontal de una manera diferente en esta publicación: si se eliminan los casos marcados como valores atípicos por el software estadístico .
gung - Restablece a Monica
Sí, ese es el mismo punto @ gung, y publicaste una buena respuesta allí.
whuber
26

Hay una generalización de diagramas de caja estándar que conozco en la que las longitudes de los bigotes se ajustan para tener en cuenta los datos asimétricos. Los detalles se explican mejor en un libro blanco muy claro y conciso (Vandervieren, E., Hubert, M. (2004) "Un diagrama de caja ajustado para distribuciones sesgadas", ver aquí ).

Hay una implementación de esto ( ), así como una implementación matlab (en una biblioteca llamada ).Rrobustbase::adjbox()libra

Personalmente, considero que es una mejor alternativa a la transformación de datos (aunque también se basa en una regla ad-hoc, consulte el documento técnico).

Por cierto, encuentro que tengo algo que agregar al ejemplo de Whuber aquí. En la medida en que estamos discutiendo el comportamiento de los bigotes, también deberíamos considerar lo que sucede al considerar los datos contaminados:

library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20,  4,    4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox(      B1,  col="red", main="adjusted boxplot of data")

En este modelo de contaminación, B1 tiene esencialmente una distribución logarítmica normal, salvo para el 20 por ciento de los datos que son valores atípicos a la mitad izquierda y mitad a la derecha (el punto de descomposición de adjbox es el mismo que el de los diagramas de caja normales, es decir, supone que, como máximo 25 por ciento de los datos pueden ser malos).

Los gráficos representan los gráficos de caja clásicos de los datos transformados (usando la transformación de raíz cuadrada)

diagrama de caja clásico en la transformación de raíz cuadrada de los datos

y la gráfica de caja ajustada de los datos no transformados.

diagrama de caja ajustado de datos no transformados

En comparación con los diagramas de caja ajustados, la opción anterior enmascara los valores atípicos reales y etiqueta los buenos datos como valores atípicos. En general, logrará ocultar cualquier evidencia de asimetría en los datos clasificando los puntos ofensivos como valores atípicos.

En este ejemplo, el enfoque de usar el diagrama de caja estándar en la raíz cuadrada de los datos encuentra 13 valores atípicos (todos a la derecha), mientras que el diagrama de caja ajustado encuentra 10 valores atípicos derechos y 14 izquierdos.

EDITAR: diagramas de caja ajustados en pocas palabras.

En diagramas de caja 'clásicos' los bigotes se colocan en:

Q1 -1.5 * IQR y + 1.5 * IQRQ3

donde IQR es el rango intercuartil, es el percentil 25 y es el percentil 75 de los datos. La regla general es considerar todo lo que está fuera de la cerca como datos dudosos (la cerca es el intervalo entre los dos bigotes).Q1Q3

Esta regla general es ad-hoc: la justificación es que si la parte no contaminada de los datos es aproximadamente gaussiana, entonces menos del 1% de los datos buenos se clasificarían como malos usando esta regla.

Una debilidad de esta regla de valla, como lo señala el OP, es que la longitud de los dos bigotes es idéntica, lo que significa que la regla de valla solo tiene sentido si la parte no contaminada de los datos tiene una distribución simétrica.

Un enfoque popular es preservar la regla de la cerca y adaptar los datos. La idea es transformar los datos utilizando alguna transformación monótona de corrección sesgada (raíz cuadrada o log o más generalmente transformaciones box-cox). Este es un enfoque un tanto desordenado: se basa en la lógica circular (la transformación debe elegirse para corregir la asimetría de la parte no contaminada de los datos, que en este momento no se puede observar) y tiende a dificultar la interpretación de los datos. visualmente. En cualquier caso, esto sigue siendo un procedimiento extraño por el cual uno cambia los datos para preservar lo que, después de todo, es una regla ad-hoc.

Una alternativa es dejar los datos intactos y cambiar la regla del bigote. El diagrama de caja ajustado permite que la longitud de cada bigote varíe de acuerdo con un índice que mide el sesgo de la parte no contaminada de los datos:

Q1 - 1.5 * IQR y + 1.5 * IQRexp(M,α)Q3exp(M,β)

Donde es un índice de asimetría de la parte no contaminada de los datos (es decir, así como la mediana es una medida de ubicación para la parte no contaminada de los datos o el MAD una medida de propagación para la parte no contaminada de los datos) y son números elegidos de tal manera que para distribuciones asimétricas no contaminadas, la probabilidad de estar fuera de la cerca es relativamente pequeña en una gran colección de distribuciones sesgadas (esta es la parte ad-hoc de la regla de la cerca).Mα β

Para los casos en que la buena parte de los datos es simétrica, y volvemos a los bigotes clásicos.M0

Los autores sugieren usar la pareja de medicamentos como un estimador de (ver referencia dentro del libro blanco) debido a su alta eficiencia (aunque en principio podría usarse cualquier índice de inclinación robusto). Con esta elección de , calcularon la y óptima empíricamente (usando una gran cantidad de distribuciones sesgadas) como:MMαβ

Q1 - 1.5 * IQR y + 1.5 * IQR, siexp(4M)Q3exp(3M)M0

Q1 - 1.5 * IQR y + 1.5 * IQR, siexp(3M)Q3exp(4M)M<0

usuario603
fuente
1
Me interesaría saber cómo considera que mi ejemplo es "inútil": simplemente calificarlo como tal no es constructivo. Admito que el ejemplo es algo decepcionante en el sentido de que la transformación de datos no representa una mejora espectacular. Eso es culpa de las distribuciones de Poisson: ¡simplemente no están lo suficientemente sesgadas como para valer la pena de todo este análisis!
whuber
@whuber:> primero, perdón por el tono: era de un primer borrador no editado y se ha corregido (normalmente escribo párrafos abreviados como una nota para mí mismo, luego los reviso repetidamente; este se perdió en el respuesta larga sin aliento). Ahora para el crítico en sí: su ejemplo muestra el comportamiento de la solución utilizando la transformación en el caso de datos no contaminados. En mi humilde opinión, la regla del bigote debería, tal vez preliminarmente, ser evaluada con un modelo de contaminación en mente.
usuario603
@user Gracias por la aclaración. No me importan las críticas, lo cual es interesante, y agradezco las referencias a diagramas de caja ajustados. (+1)
whuber
Estoy de acuerdo con el usuario603 en que hay una diferencia en si inspecciona una distribución pura (como en la respuesta de whubers) o si tiene datos de una distribución más algunos valores atípicos (discutidos aquí como contaminación ). Desde mi perspectiva, en entornos reales, se utiliza un diagrama de caja para buscar valores atípicos. A continuación, un análisis de diagramas de caja que omite valores atípicos de alguna manera pierde el punto. Por lo tanto, esta respuesta parece cumplir mejor el propósito de usar boxplots.
Henrik
2
@Henrik La identificación de valores atípicos es solo uno de los muchos propósitos de los diagramas de caja. El enfoque de Tukey fue primero encontrar una nueva expresión apropiada de los datos que hicieran que el centro de su distribución fuera aproximadamente simétrico. Esto evita la necesidad de cualquier ajuste por asimetría. Eso ya logra mucho en términos de permitir comparaciones entre diagramas de caja, que es donde se vuelven realmente útiles. "Ajustar" los bigotes se pierde por completo en este tema fundamental. Por lo tanto, desconfiaría de usar el ajuste: su necesidad es una señal de que el análisis no se está haciendo bien.
whuber