Estoy jugando con el conjunto de datos de cáncer de mama y creé un diagrama de dispersión de todos los atributos para tener una idea de cuáles tienen el mayor efecto en la predicción de la clase malignant
(azul) de benign
(rojo).
Entiendo que la fila representa el eje xy la columna representa el eje y, pero no puedo ver qué observaciones puedo hacer sobre los datos o los atributos de este diagrama de dispersión.
Estoy buscando ayuda para interpretar / hacer observaciones sobre los datos de este diagrama de dispersión o si debería usar alguna otra visualización para visualizar estos datos.
Código R que utilicé
link <- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff"
breast <- read.arff(link)
cols <- character(nrow(breast))
cols[] <- "black"
cols[breast$class == 2] <- "red"
cols[breast$class == 4] <- "blue"
pairs(breast, col=cols)
r
data-visualization
interpretation
scatterplot
pajarito
fuente
fuente
Respuestas:
No estoy seguro de si esto es de alguna ayuda para usted, pero para la EDA primaria realmente me gusta el
tabplot
paquete. Le da una buena idea de las posibles correlaciones que puede haber dentro de sus datos.fuente
Hay una serie de problemas que hacen que sea difícil o imposible extraer información utilizable de su matriz de diagrama de dispersión.
Tiene demasiadas variables que se muestran juntas. Cuando tiene muchas variables en una matriz de diagrama de dispersión, cada diagrama se vuelve demasiado pequeño para ser útil. Lo que hay que notar es que muchas parcelas están duplicadas, lo que desperdicia espacio. Además, aunque desea ver cada combinación, no tiene que trazarlas todas juntas. Tenga en cuenta que puede dividir una matriz de diagrama de dispersión en bloques más pequeños de cuatro o cinco (un número que es útil para visualizar). Solo necesita hacer varias parcelas, una para cada bloque.
Dado que tiene una gran cantidad de datos en puntos discretos en el espacio , terminan apilándose uno encima del otro. Por lo tanto, no puede ver cuántos puntos hay en cada ubicación. Hay varios trucos para ayudarte a lidiar con esto.
Usando estas estrategias, aquí hay un ejemplo de código R y las parcelas realizadas:
fuente
Es difícil visualizar más de 3-4 dimensiones en una sola parcela. Una opción sería utilizar el análisis de componentes principales (PCA) para comprimir los datos y luego visualizarlos en las dimensiones principales. Hay varios paquetes diferentes en R (así como la
prcomp
función base ) que hacen que esto sea sintácticamente fácil ( vea CRAN ); interpretar las tramas, las cargas, es otra historia, pero creo que es más fácil que una matriz de diagrama de dispersión ordinal de 10 variables.fuente