¿Me gustaría saber si hay una variante de diagrama de caja adaptada a los datos distribuidos de Poisson (o posiblemente otras distribuciones)?
Con una distribución gaussiana, los bigotes colocados en L = Q1 - 1.5 IQR y U = Q3 + 1.5 IQR, el diagrama de caja tiene la propiedad de que habrá aproximadamente tantos valores atípicos bajos (puntos por debajo de L) como valores atípicos altos (puntos por encima de U )
Sin embargo, si los datos están distribuidos por Poisson, esto ya no se mantiene debido a la asimetría positiva que obtenemos Pr (X <L) <Pr (X> U) . ¿Hay alguna forma alternativa de colocar los bigotes de modo que 'encajen' en una distribución de Poisson?
Respuestas:
Los diagramas de caja no fueron diseñados para garantizar una baja probabilidad de exceder los extremos de los bigotes en todos los casos: están destinados, y generalmente se usan, como caracterizaciones gráficas simples de la mayor parte de un conjunto de datos. Como tal, están bien incluso cuando los datos tienen distribuciones muy asimétricas (aunque es posible que no revelen tanta información como lo hacen sobre distribuciones aproximadamente sin sesgar).
Cuando los diagramas de caja se sesgan, como lo harán con una distribución de Poisson, el siguiente paso es volver a expresar la variable subyacente (con una transformación monotónica y creciente) y volver a dibujar los diagramas de caja. Debido a que la varianza de una distribución de Poisson es proporcional a su media, una buena transformación para usar es la raíz cuadrada.
Cada diagrama de caja muestra 50 iid extraídos de una distribución de Poisson con intensidad dada (del 1 al 10, con dos ensayos para cada intensidad). Tenga en cuenta que la asimetría tiende a ser baja.
Los mismos datos en una escala de raíz cuadrada tienden a tener diagramas de caja que son ligeramente más simétricos y (a excepción de la intensidad más baja) tienen IQR aproximadamente iguales independientemente de la intensidad).
En resumen, no cambie el algoritmo de diagrama de caja: en su lugar, vuelva a expresar los datos.
Por cierto, las posibilidades relevantes para calcular son las siguientes: ¿cuál es la probabilidad de que una variante normal independiente supere la valla superior (inferior) ( ) como se estima a partir de sorteos independientes de la misma distribución? U L nX U L n Esto explica el hecho de que las cercas en un diagrama de caja no se calculan a partir de la distribución subyacente, sino que se estiman a partir de los datos. ¡En la mayoría de los casos, las posibilidades son mucho mayores al 1%! Por ejemplo, aquí (basado en 10,000 pruebas de Monte-Carlo) hay un histograma de las posibilidades de registro (base 10) para el caso :n=9
(Debido a que la distribución normal es simétrica, este histograma se aplica a ambas cercas). El logaritmo de 1% / 2 es aproximadamente -2.3. Claramente, la mayoría de las veces la probabilidad es mayor que esto. ¡Aproximadamente el 16% del tiempo supera el 10%!
Resulta (no saturaré esta respuesta con los detalles) que las distribuciones de estas posibilidades son comparables al caso normal (para pequeña ) incluso para distribuciones de intensidad de Poisson tan bajas como 1, lo cual es bastante sesgado. La principal diferencia es que generalmente es menos probable encontrar un valor atípico bajo y un poco más probable de encontrar un valor atípico alto.n
fuente
Hay una generalización de diagramas de caja estándar que conozco en la que las longitudes de los bigotes se ajustan para tener en cuenta los datos asimétricos. Los detalles se explican mejor en un libro blanco muy claro y conciso (Vandervieren, E., Hubert, M. (2004) "Un diagrama de caja ajustado para distribuciones sesgadas", ver aquí ).
Hay una implementación de esto ( ), así como una implementación matlab (en una biblioteca llamada ).R robustbase::adjbox() libra
Personalmente, considero que es una mejor alternativa a la transformación de datos (aunque también se basa en una regla ad-hoc, consulte el documento técnico).
Por cierto, encuentro que tengo algo que agregar al ejemplo de Whuber aquí. En la medida en que estamos discutiendo el comportamiento de los bigotes, también deberíamos considerar lo que sucede al considerar los datos contaminados:
En este modelo de contaminación, B1 tiene esencialmente una distribución logarítmica normal, salvo para el 20 por ciento de los datos que son valores atípicos a la mitad izquierda y mitad a la derecha (el punto de descomposición de adjbox es el mismo que el de los diagramas de caja normales, es decir, supone que, como máximo 25 por ciento de los datos pueden ser malos).
Los gráficos representan los gráficos de caja clásicos de los datos transformados (usando la transformación de raíz cuadrada)
y la gráfica de caja ajustada de los datos no transformados.
En comparación con los diagramas de caja ajustados, la opción anterior enmascara los valores atípicos reales y etiqueta los buenos datos como valores atípicos. En general, logrará ocultar cualquier evidencia de asimetría en los datos clasificando los puntos ofensivos como valores atípicos.
En este ejemplo, el enfoque de usar el diagrama de caja estándar en la raíz cuadrada de los datos encuentra 13 valores atípicos (todos a la derecha), mientras que el diagrama de caja ajustado encuentra 10 valores atípicos derechos y 14 izquierdos.
EDITAR: diagramas de caja ajustados en pocas palabras.
En diagramas de caja 'clásicos' los bigotes se colocan en:
donde IQR es el rango intercuartil, es el percentil 25 y es el percentil 75 de los datos. La regla general es considerar todo lo que está fuera de la cerca como datos dudosos (la cerca es el intervalo entre los dos bigotes).Q1 Q3
Esta regla general es ad-hoc: la justificación es que si la parte no contaminada de los datos es aproximadamente gaussiana, entonces menos del 1% de los datos buenos se clasificarían como malos usando esta regla.
Una debilidad de esta regla de valla, como lo señala el OP, es que la longitud de los dos bigotes es idéntica, lo que significa que la regla de valla solo tiene sentido si la parte no contaminada de los datos tiene una distribución simétrica.
Un enfoque popular es preservar la regla de la cerca y adaptar los datos. La idea es transformar los datos utilizando alguna transformación monótona de corrección sesgada (raíz cuadrada o log o más generalmente transformaciones box-cox). Este es un enfoque un tanto desordenado: se basa en la lógica circular (la transformación debe elegirse para corregir la asimetría de la parte no contaminada de los datos, que en este momento no se puede observar) y tiende a dificultar la interpretación de los datos. visualmente. En cualquier caso, esto sigue siendo un procedimiento extraño por el cual uno cambia los datos para preservar lo que, después de todo, es una regla ad-hoc.
Una alternativa es dejar los datos intactos y cambiar la regla del bigote. El diagrama de caja ajustado permite que la longitud de cada bigote varíe de acuerdo con un índice que mide el sesgo de la parte no contaminada de los datos:
Donde es un índice de asimetría de la parte no contaminada de los datos (es decir, así como la mediana es una medida de ubicación para la parte no contaminada de los datos o el MAD una medida de propagación para la parte no contaminada de los datos) y son números elegidos de tal manera que para distribuciones asimétricas no contaminadas, la probabilidad de estar fuera de la cerca es relativamente pequeña en una gran colección de distribuciones sesgadas (esta es la parte ad-hoc de la regla de la cerca).M α β
Para los casos en que la buena parte de los datos es simétrica, y volvemos a los bigotes clásicos.M≈0
Los autores sugieren usar la pareja de medicamentos como un estimador de (ver referencia dentro del libro blanco) debido a su alta eficiencia (aunque en principio podría usarse cualquier índice de inclinación robusto). Con esta elección de , calcularon la y óptima empíricamente (usando una gran cantidad de distribuciones sesgadas) como:M M α β
fuente