Tengo dificultades para seleccionar la forma correcta de visualizar datos. Digamos que tenemos librerías que venden libros , y cada libro tiene al menos una categoría .
Para una librería, si contamos todas las categorías de libros, adquirimos un histograma que muestra la cantidad de libros que cae en una categoría específica para esa librería.
Quiero visualizar el comportamiento de la librería, quiero ver si favorecen una categoría sobre otras categorías. No quiero ver si están favoreciendo la ciencia ficción todos juntos, pero quiero ver si están tratando a cada categoría por igual o no.
Tengo ~ 1M librerías.
He pensado en 4 métodos:
Muestree los datos, muestre solo 500 histogramas de la librería. Muéstrelos en 5 páginas separadas usando una cuadrícula de 10x10. Ejemplo de una cuadrícula 4x4:
Igual que el n. ° 1. Pero esta vez clasifique los valores del eje x de acuerdo con su recuento descifrado, por lo que si hay un favor, se verá fácilmente.
Imagina poner los histogramas en el n. ° 2 juntos como un mazo y mostrarlos en 3D. Algo como esto:
En lugar de usar el color de demanda del tercer eje para representar los colores, utilice un mapa de calor (histograma 2D):
si las librerías generalmente prefieren algunas categorías a otras, se mostrará como un bonito degradado de izquierda a derecha.
¿Tiene alguna otra idea / herramienta de visualización para representar varios histogramas?
fuente
Respuestas:
Como has descubierto, ¡no hay respuestas fáciles para tu pregunta!
¿Supongo que te interesa encontrar librerías extrañas o diferentes? Si este es el caso, puede probar cosas como PCA (consulte la página de análisis de clúster de Wikipedia para obtener más detalles).
Para darle una idea, considere este ejemplo. Tienes 26 librerías (con los nombres A, B, .. Z). Todas las librerías son similares, excepto:
Una trama de componentes principales destaca estas tiendas para una mayor investigación.
Aquí hay un código R de muestra:
Esto da la siguiente trama:
PCA plot http://img265.imageshack.us/img265/7263/tmplx.jpg
Darse cuenta de:
Otras posibilidades
También puedes mirar GGobi , nunca lo he usado, pero parece interesante.
fuente
Sugeriría algo que no tiene un nombre definido (probablemente "trama paralela") y se ve así:
Básicamente, traza todos los recuentos de todas las librerías como puntos sobre las categorías enumeradas en el eje xy conecta los resultados de cada librería con una línea. Sin embargo, esto puede estar demasiado enredado para las líneas 1M. El concepto proviene de GGobi, que ya fue mencionado por csgillespie.
fuente