¿Existe un paquete R que pueda usar para explorar si existen relaciones entre variables?
Por lo general, cuando busco patrones, busco correlaciones y luego un diagrama de facetas. Luego aplico manualmente algunas transformaciones a las variables en los datos. Me preguntaba si podría acelerar este proceso a través de un paquete R.
r
data-visualization
correlation
eda
celenius
fuente
fuente
Respuestas:
AFAIK, no. Para ser más precisos, no sé de un solo paquete R que haría parte de lo que se denomina Análisis exploratorio de datos (EDA) para que a través de una sola llamada de función - Estoy pensando en la re-expresión y la revelación aspectos discutido en Hoaglin, Mosteller y Tukey, Comprender el análisis robusto y exploratorio de datos . Wiley-Interscience, 1983, en particular.
Sin embargo, existen algunas alternativas ingeniosas en R, especialmente con respecto a la exploración interactiva de datos (Mire aquí para una discusión interesante: ¿ Cuándo es útil utilizar la visualización interactiva de datos? ). Puedo pensar en
Esto es solo para la exploración interactiva de datos, pero diría que esta es la esencia de EDA. De todos modos, las técnicas anteriores podrían ayudar al explorar relaciones bivariadas o de orden superior entre variables numéricas. Para datos categóricos, el paquete vcd es una buena opción (visualización y tablas de resumen). Entonces, diría que los paquetes vegan y ade4 son lo primero para explorar las relaciones entre variables de tipos de datos mixtos.
Finalmente, ¿qué pasa con la minería de datos en R? (Pruebe esta palabra clave en Rseek )
fuente
loon
también hay waddella.github.io/loon. El crédito va a @hadleywickham por señalar esto.Si solo desea ver rápidamente cómo se correlacionan las variables en su conjunto de datos, eche un vistazo a la función pares (), o incluso mejor, la función pares.panels () en el paquete psicológico. Escribí un poco sobre la función de pares aquí .
Usando la función pares () o psic :: pares.panels () es bastante fácil hacer matrices de diagrama de dispersión.
fuente
Consulte el
scagnostics
paquete y el trabajo de investigación original . Esto es muy interesante para las relaciones bivariadas. Para las relaciones multivariantes, la búsqueda de proyección es un muy buen primer paso.Sin embargo, en general, el dominio y la experiencia en datos reducirán y mejorarán sus métodos para investigar rápidamente las relaciones.
fuente
La función chart.Correlation en PerformanceAnalytics proporciona una funcionalidad similar a la función plot.pairs mencionada por @Stephen Turner, excepto que se suaviza con una función loess en lugar de un modelo lineal, y la importancia de las correlaciones.
fuente
Si está buscando posibles transformaciones para trabajar con correlación, entonces una herramienta que no se ha mencionado aún y que puede ser útil es la
ace
que se puede encontrar en elacepack
paquete (y probablemente también en otros paquetes). Esto hace un proceso interactivo de probar muchas transformaciones diferentes (usando suavizadores) para encontrar las transformaciones para maximizar la correlación entre un conjunto de variables xy una variable ay. Trazar las transformaciones puede sugerir transformaciones significativas.fuente
Puede usar la función DCOR en el paquete 'energía' para calcular una medida de dependencia no lineal llamada correlación de distancia y trazar como se indicó anteriormente. El problema con la correlación de Pearson es que solo puede detectar relaciones lineales entre variables. Asegúrese de elegir el parámetro de escritura para el índice en la función DCOR que dice.
fuente