Estoy trabajando en un proyecto que involucra 14 variables y 345,000 observaciones para datos de vivienda (cosas como año de construcción, pies cuadrados, precio de venta, condado de residencia, etc.). Me preocupa tratar de encontrar buenas técnicas gráficas y bibliotecas R que contengan buenas técnicas de trazado.
Ya estoy viendo qué funcionará bien en ggplot y enrejado, y estoy pensando en hacer gráficos de violín para algunas de mis variables numéricas.
¿Qué otros paquetes recomendarían las personas para mostrar una gran cantidad de variables numéricas o factorizadas de forma clara, pulida y, lo más importante, sucinta?
r
data-visualization
large-data
eda
Christopher Aden
fuente
fuente
Respuestas:
El mejor "gráfico" es tan obvio que nadie lo ha mencionado todavía: hacer mapas. Los datos de la vivienda dependen fundamentalmente de la ubicación espacial (según la antigua sierra sobre bienes raíces), por lo que lo primero que debe hacerse es hacer un mapa detallado y claro de cada variable. Hacer esto bien con un tercio de un millón de puntos realmente requiere un SIG de fuerza industrial, que puede hacer un trabajo corto del proceso. Después de eso, tiene sentido continuar y hacer diagramas de probabilidad y diagramas de caja para explorar distribuciones univariadas, y trazar matrices de diagramas de dispersión y diagramas de caja esquemáticos errantes, etc., para explorar dependencias, pero los mapas sugerirán inmediatamente qué explorar, cómo modelar el relaciones de datos y cómo dividir los datos geográficamente en subconjuntos significativos.
fuente
ggplot2
(especialmente si no necesita trazar los límites del país), had.co.nz/ggplot2/coord_map.html . De lo contrario,maps
,gmaps
son mejores. También hayGeoXp
una interfaz R para GRASS. Por cierto, Mondrian tiene un complemento para datos geográficos :)lattice
'slevelplot
ycontourplot
. El paquetefields
tiene algunas características agradables,quiltplot
que incluyen lo que es bueno si sus datos no están estrictamente en una cuadrícula. También tiene una buena función de spline de placa delgadaTps
para suavizar los datos no cuadriculados en una cuadrícula. En cuanto al software SIG dedicado, GRASS de alguna manera nunca tiene sentido para mí, prefiero QGIS.Recomiendo echar un vistazo a GGobi , que también tiene una interfaz R, al menos con fines exploratorios. Tiene una serie de pantallas gráficas especialmente útiles para manejar un gran número de observaciones y variables y para vincularlas. Es posible que desee comenzar viendo algunos de los videos en la sección "Ver una demostración" en la página de Learn GGobi .
Actualizar
Enlaces a las herramientas de Hadley Wickham para GGobi, como lo sugiere chl en los comentarios:
fuente
DescribeDisplay
yclusterfly
.Siento que en realidad estás haciendo dos preguntas: 1) qué tipos de visualizaciones usar y 2) qué paquete R puede producirlas.
En el caso de qué tipo de gráfico usar, hay muchos, y depende de sus necesidades (por ejemplo: tipos de variables: numéricas, factoriales, geográficas, etc. y el tipo de conexiones que le interesa mostrar):
Ahora con respecto a cómo hacerlo. Un problema con muchos puntos de datos es el tiempo hasta que se crea el gráfico. ggplot2, iplots, ggobi no son muy buenos para demasiados puntos de datos (al menos desde mi experiencia). En ese caso, es posible que desee centrarse en las instalaciones de gráficos de base R, o muestrear sus datos y utilizar todas las otras herramientas. O puede esperar que las personas que desarrollan iplots extreme (o Acinonyx ) lleguen a una etapa de lanzamiento avanzado.
fuente
rflowcyt
y Acinonyx.rflowcyt
ha quedado en desuso con versiones recientes de Bioconductor, ahora se recomienda su usoflowViz
. De todos modos, ambos confíanlattice
.Mondrian proporciona características interactivas y maneja conjuntos de datos bastante grandes (sin embargo, está en Java).
Paraview incluye visualización 2D / 3D. caracteristicas.
fuente
iplots
de @Tal. Acerca de Paraview, tiene la opción de guardar una captura de pantalla de su visualización.DescribeDisplay
es el camino a seguir para exportar visualización dinámica desde GGobi, cran.r-project.org/web/packages/DescribeDisplay/index.html .Me gustaría llamar su atención, Coordenadas paralelas: geometría visual multidimensional y sus aplicaciones , que contiene los últimos avances y aplicaciones en el campo.
El libro fue elogiado por Stephen Hawking, entre otros. Las superficies se describen (utilizando la dualidad) por sus vectores normales en sus puntos. Contiene aplicaciones para el control del tráfico aéreo (Evitación automática de colisiones - 3 patentes de EE. UU.), Minería de datos multivariada (en conjuntos de datos reales, algunos con cientos de variables), Optimización multiobjetivo, Control de procesos, Pantallas inteligentes de cuidados intensivos, Seguridad, visualización de redes y recientemente Big Datos.
fuente