He leído varios artículos y extractos de libros que explican cómo elegir un buen número de intervalos (bins) para el histograma de un conjunto de datos, pero me pregunto si hay un número máximo de intervalos basado en el número de puntos en un conjunto de datos o algún otro criterio.
Antecedentes: la razón por la que pregunto es que estoy tratando de escribir software basado en un procedimiento de un trabajo de investigación. Un paso en el procedimiento es crear varios histogramas a partir de un conjunto de datos, luego elegir la resolución óptima basada en una función característica (definida por los autores del artículo). Mi problema es que los autores no mencionan un límite superior para el número de intervalos para probar. (Tengo cientos de conjuntos de datos para analizar, y cada uno puede tener un número "óptimo" diferente de contenedores. Además, es importante que se seleccione el número óptimo de contenedores, por lo que mirar manualmente los resultados y elegir uno bueno no trabajo.)
¿Sería una buena guía establecer simplemente el número máximo de intervalos para que sea el número de puntos en el conjunto de datos, o hay algún otro criterio que generalmente se usa en estadísticas?
fuente
Respuestas:
Realmente no hay ningún límite superior difícil, pero por otro lado, en la mayoría de las situaciones, una vez que obtienes todas las observaciones únicas en su propio contenedor, los contenedores más finos solo sirven para determinar sus posiciones con mayor precisión sin transmitir mucho más. por ejemplo, compare estos:
Excepto en algunas circunstancias muy particulares, es probable que no haya ningún beneficio práctico en la segunda trama, y no tanto en la primera. Si sus datos son continuos, esto probablemente sea mucho más allá de un número útil de contenedores.
Entonces, en la mayoría de las situaciones, eso parece al menos un límite superior práctico: cada observación única en su propio contenedor.
(Si no es en beneficio de más contenedores de uno por la observación única, probablemente debería estar haciendo un rugplot o una Stripchart jitter para obtener ese tipo de información) - algo así como lo que se hace en los márgenes de estos histogramas:
(Esos histogramas se toman de esta respuesta , cerca del final)
fuente
Existe un buen caso para tener una gran cantidad de contenedores, por ejemplo, contenedores para cada valor posible, siempre que se sospeche que el detalle de un histograma no sería ruido, sino una estructura fina interesante o importante.
Esto no está directamente relacionado con la motivación precisa para esta pregunta, ya que quiere una regla automatizada para un número óptimo de contenedores, pero es relevante para la pregunta en su conjunto.
Pasemos de inmediato a los ejemplos. En la demografía, el redondeo de las edades reportadas es común, especialmente pero no solo en países con alfabetización limitada. Lo que puede suceder es que muchas personas no conocen su fecha exacta de nacimiento, o existen razones sociales o personales para entender o exagerar su edad. La historia militar está llena de ejemplos de personas que mienten sobre su edad para evitar o buscar servicio en las fuerzas armadas. De hecho, muchos lectores conocerán a alguien que es muy tímido o que no es muy sincero acerca de su edad, incluso si no mienten al respecto en un censo. El resultado neto varía, pero como ya está implícito, generalmente se redondea, por ejemplo, las edades que terminan en 0 y 5 son mucho más comunes que las edades de un año menos o más.
Un fenómeno similar de preferencia de dígitos es común incluso para problemas muy diferentes. Con algunos métodos de medición anticuados, el último dígito de una medición informada debe medirse a simple vista mediante interpolación entre marcas graduadas. Este fue un estándar largo en meteorología con termómetros de mercurio. Se ha encontrado que colectivamente algunos dígitos reportados son más comunes que otros y que individualmente muchos de nosotros tenemos firmas, un patrón personal de favorecer algunos dígitos en lugar de otros. La distribución de referencia habitual aquí es el uniforme, es decir, siempre que el rango de mediciones posibles sea muchas veces mayor que la "unidad" de medición, se espera que los dígitos finales ocurran con la misma frecuencia. Entonces, si las temperaturas de sombra reportadas podrían cubrir un rango de (digamos) 50∘ C los diez últimos dígitos, fracciones de un grado .0, .1, , .8, .9 deben aparecer con probabilidad 0.1. La calidad de esta aproximación debería ser buena incluso para un rango más limitado.⋯
Por cierto, mirar los últimos dígitos de los datos reportados es un método simple y bueno para verificar los datos fabricados, uno que es mucho más fácil de entender y menos problemático que el escrutinio actual de los primeros dígitos con una apelación a la Ley de Benford.
El resultado de los histogramas ahora debería estar claro. Una presentación tipo espiga puede servir para mostrar, o más generalmente para verificar, este tipo de estructura fina. Naturalmente, si nada de interés es discernible, el gráfico puede ser de poca utilidad.
Un ejemplo muestra la acumulación de edad del censo de Ghana de 1960. Ver http://www.stata.com/manuals13/rspikeplot.pdf
Hubo una buena revisión de las distribuciones de dígitos finales en
Preece, DA 1981. Distribuciones de dígitos finales en datos. El estadístico 30: 31-60.
Una nota sobre terminología: algunas personas escriben sobre los valores únicos de una variable cuando estarían mejor hablando de los valores distintos de una variable. Los diccionarios y las guías de uso aún aconsejan que "único" significa que ocurre solo una vez. Por lo tanto, las distintas edades informadas de una población podrían ser, en años, 0, 1, 2, etc., pero la gran mayoría de esas edades no serán exclusivas de una persona.
fuente
No hay un máximo duro para el número de contenedores en un histograma. Si la variable que se traza es continua, entonces se puede hacer un argumento para un número infinito de categorías (y el histograma se convierte básicamente en un diagrama de alfombra).
El número de puntos en el conjunto de datos no es un límite superior apropiado. Considere un conjunto de datos que contiene dos valores: 1 y 1000. Tener dos contenedores no sería apropiado.
Dos métodos prácticos para determinar un límite superior son: a) Determinar el redondeo subyacente de los datos. Por ejemplo, si los datos son enteros, entonces tiene sentido tener contenedores que sean de ancho entero. b) Observar la resolución máxima visible (p. ej., número de píxeles en la dimensión horizontal que puede usarse para trazar)
fuente