Beneficios de usar gráficos QQ sobre histogramas

22

En este comentario , Nick Cox escribió:

Binning en clases es un método antiguo. Si bien los histogramas pueden ser útiles, el software estadístico moderno facilita y aconseja ajustar las distribuciones a los datos sin procesar. Binning simplemente arroja detalles que son cruciales para determinar qué distribuciones son plausibles.

El contexto de este comentario sugiere el uso de gráficos QQ como un medio alternativo para evaluar el ajuste. La declaración suena muy plausible, pero me gustaría saber acerca de una referencia confiable que respalde esta declaración. ¿Hay algún documento que haga una investigación más exhaustiva de este hecho, más allá de un simple "bueno, esto suena obvio"? ¿Alguna comparación sistemática de resultados o me gusta?

También me gustaría ver hasta qué punto este beneficio de los gráficos QQ sobre los histogramas puede extenderse a otras aplicaciones que no sean el ajuste del modelo. Las respuestas a esta pregunta coinciden en que "un gráfico QQ [...] simplemente te dice que" algo está mal "". Estoy pensando en usarlos como una herramienta para identificar la estructura en los datos observados en comparación con un modelo nulo y me pregunto si existen procedimientos establecidos para usar gráficos QQ (o sus datos subyacentes) no solo para detectar sino también para describir no aleatorios estructura en los datos observados. Por lo tanto, las referencias que incluyen esta dirección serían particularmente útiles.

MvG
fuente
44
stats.stackexchange.com/questions/51718/… ya responde la mitad de la pregunta, a saber, por qué es mejor evitar los histogramas, sin importar con qué los reemplace.
Gala

Respuestas:

25

El papel canónico aquí fue

Wilk, MB y R. Gnanadesikan. 1968. Probabilidad de los métodos de trazado para el análisis de datos. Biometrika 55: 1-17

y todavía paga la lectura cercana y repetida.

Un tratamiento lúcido con muchos buenos ejemplos fue dado por

Cleveland, WS 1993. Visualización de datos. Summit, NJ: Hobart Press.

y vale la pena mencionar los más introductorios

Cleveland, WS 1994. Los elementos de graficar datos. Summit, NJ: Hobart Press.

Otros textos que contienen una exposición razonable a este enfoque incluyen

Davison, AC 2003. Modelos estadísticos. Cambridge: Cambridge University Press.

Rice, JA 2007. Estadística matemática y análisis de datos. Belmont, CA: Duxbury.

Aparte de eso, no sé nada de lo que pides. Una vez que haya visto el punto de las gráficas cuantil-cuantil, mostrar en detalle que los histogramas son una alternativa de segundo orden no parece interesante ni útil, demasiado parecido a disparar peces en un barril.

Pero resumiría así:

  1. Binning suprime los detalles, y los detalles son a menudo importantes. Esto puede aplicarse no solo a lo que está sucediendo exactamente en las colas sino también a lo que está sucediendo en el medio. Por ejemplo, la granularidad o la multimodalidad pueden ser importantes, así como la asimetría o el peso de la cola.

  2. El binning requiere decisiones sobre el origen y el ancho del bin, lo que puede afectar la apariencia de los histogramas de manera poderosa, por lo que es difícil ver qué es real y cuál es un efecto secundario de las elecciones. Si su software toma estas decisiones por usted, los problemas persisten. (Por ejemplo, las opciones de ubicación predeterminadas a menudo se diseñan para que no use "demasiadas ubicaciones", es decir, con el motivo de suavizar un poco).

  3. El problema gráfico y psicológico de comparar dos histogramas es más complicado que el de juzgar el ajuste de un conjunto de puntos a una línea recta.

[Agregado el 27 de septiembre de 2017] 4. Las gráficas de cuantiles se pueden variar muy fácilmente cuando se considera una o más escalas transformadas. Por transformación aquí me refiero a una transformación no lineal, no p. Ej. Escalar por un máximo o estandarización por (valor-media) / SD. Si los cuantiles son solo las estadísticas de orden, entonces todo lo que necesita hacer es aplicar la transformación, ya que, por ejemplo, el logaritmo del máximo es idénticamente el máximo de los logaritmos, y así sucesivamente. (Trivialmente, la reciprocidad invierte el orden). Incluso si traza los cuantiles seleccionados que se basan en estadísticas de dos órdenes, generalmente solo se interpolan entre dos valores de datos originales y el efecto de la interpolación es trivial. Por el contrario, los histogramas en el registro u otras escalas transformadas requieren una nueva decisión sobre el origen y el ancho del contenedor que no es especialmente difícil, pero no es trivial. Lo mismo puede decirse de la estimación de densidad como una forma de resumir la distribución.

Nick Cox
fuente
8

Vea el trabajo de William S. Cleveland.

La visualización de datos es probablemente la mejor fuente única, pero también vea su página web , especialmente la bibliografía y la página de Visualización de datos (incluido el código S + que es adaptable para su uso R).

Cleveland tiene muchas razones por las que los gráficos QQ son buenos y por qué los histogramas no son tan buenos.

Peter Flom - Restablece a Monica
fuente
7

Una vez que aprende a usarlos, los gráficos QQ le permiten identificar asimetrías, pesadez, forma general, picos, etc., el mismo tipo de características que las personas tienden a usar histogramas para tratar de evaluar.

Las estimaciones de densidad de kernel o las estimaciones de densidad de log-spline pueden evitar algunos de los problemas con los histogramas que Gala señaló en los comentarios.

Considere este ejemplo de ese enlace:

Sin embargo, a menos que tenga mucha suerte, a veces se puede pasar por alto una discreción insospechada con un histograma, e incluso con las estimaciones de densidad suaves (porque son suaves, naturalmente), pero a menudo será obvio en los gráficos QQ. Las estimaciones de densidad uniformes, a menos que se traten especialmente, también pueden tener problemas con las variables limitadas.

Los histogramas y las estimaciones de densidad uniforme se basan en una aproximación a los datos, que puede ser útil, pero también pueden introducir artefactos o tergiversar algo.

Glen_b -Reinstate a Monica
fuente