He leído y visto muchas parcelas de coordenadas paralelas. ¿Alguien puede responder el siguiente conjunto de preguntas:
- ¿Qué son las gráficas de coordenadas paralelas (PCP) en palabras simples, para que un laico pueda entender?
- Una explicación matemática con cierta intuición si es posible
- ¿Cuándo son útiles los PCP y cuándo usarlos?
- Cuando son PCP no útil y cuando se debe evitar?
- Posibles ventajas y desventajas de PCP
r
data-visualization
suncoolsu
fuente
fuente
Respuestas:
Me parece que la función principal de PCP es resaltar grupos homogéneos de individuos, o por el contrario (en el espacio dual, por analogía con PCA) patrones específicos de asociación en diferentes variables. Produce un resumen gráfico efectivo de un conjunto de datos multivariados, cuando no hay demasiadas variables. Las variables se escalan automáticamente a un rango fijo (generalmente, 0-1) que es equivalente a trabajar con variables estandarizadas (para evitar la influencia de una variable sobre las otras debido a un problema de escala), pero para un conjunto de datos de muy alta dimensión (# de variables> 10), definitivamente debe mirar otras pantallas, como el gráfico de fluctuación o el mapa de calor como se usa en los estudios de microarrays.
Ayuda a responder preguntas como:
En la siguiente gráfica de los datos de Iris , se ve claramente que las especies (aquí mostradas en diferentes colores) muestran perfiles muy discriminatorios al considerar la longitud y el ancho de los pétalos, o que Iris setosa (azul) son más homogéneos con respecto a su longitud de pétalos ( es decir, su varianza es menor), por ejemplo.
Incluso puede usarlo como back-end para técnicas de clasificación o reducción de dimensiones, como PCA. La mayoría de las veces, al realizar un PCA, además de reducir el espacio de características, también desea resaltar grupos de individuos (por ejemplo, ¿hay individuos que sistemáticamente obtienen puntajes más altos en alguna combinación de las variables); esto generalmente se reduce aplicando algún tipo de agrupamiento jerárquico en los puntajes de los factores y resaltando la membresía del clúster resultante en el espacio factorial (consulte el paquete FactoClass R).
También se usa en clustergrams ( Visualización de análisis de cluster jerárquico y no jerárquico ) que tiene como objetivo examinar cómo evoluciona la asignación de cluster al aumentar el número de clusters (ver también, ¿Qué criterios de detención para el agrupamiento jerárquico aglomerativo se usan en la práctica? ).
Tales pantallas también son útiles cuando se vinculan a diagramas de dispersión habituales (que por construcción están restringidos a relaciones 2D), esto se llama cepillado y está disponible en el sistema de visualización de datos GGobi o el software Mondrian .
fuente
Con respecto a las preguntas 3, 4 y 5, te sugiero que revises este trabajo
Percepción de patrones en coordenadas paralelas: determinación de umbrales para la identificación de relaciones por: Jimmy Johansson, Camilla Forsell, Mats Lind, Matthew Cooper en Information Visualization, vol. 7, núm. 2. (2008), págs. 152-162.
Para resumir sus hallazgos, las personas están bien para identificar la dirección de la pendiente de la relación entre cada nodo, pero no son tan buenos para identificar la fuerza de la relación o el grado de la pendiente. Dan niveles sugeridos de ruido en los que las personas aún pueden descifrar la relación en el artículo. Lamentablemente, el artículo no trata la identificación de subgrupos a través del color, como lo demuestra chl.
fuente
Visite http://www.cs.tau.ac.il/~aiisreal/ y también mire el nuevo libro.
Coordenadas paralelas: este libro trata sobre la visualización, incorporando sistemáticamente el fantástico reconocimiento de patrones humanos en el proceso de resolución de problemas ... www.springer.com/math/cse/book/978-0-387-21507-5.
Pulgada. 10 hay muchos ejemplos reales con datos multivariados que muestran cómo se pueden usar coordenadas paralelas (abreviatura || -cs). También vale la pena aprender algunas de las matemáticas para visualizar y trabajar con relaciones (superficies) multivariadas / multidimensionales y no solo conjuntos de puntos. Es divertido ver y trabajar con los análogos de objetos familiares en muchas dimensiones, es decir, la tira de Moebius, los conjuntos convexos y más.
En resumen || -cs son un sistema de coordenadas multidimensional donde los ejes son paralelos entre sí permitiendo ver muchos ejes. La metodología se ha aplicado a algoritmos de resolución de conflictos en control de tráfico aéreo, visión por computadora, control de procesos y soporte de decisiones.
fuente