En mis intentos de luchar contra el caos de las hojas de cálculo, a menudo soy evangélico al presionar por herramientas más robustas, como un verdadero software de estadísticas (R, Stata y similares). Recientemente, fui desafiado en esta opinión por alguien que declaró rotundamente que simplemente no aprenderán a programar. Me gustaría proporcionarles herramientas de análisis de datos que no requieren programación (pero idealmente que se extenderían a la programación si deciden sumergir un dedo del pie en el agua más adelante). ¿Qué paquetes existen para la exploración de datos que puedo recomendar con una cara seria?
data-visualization
software
Ari B. Friedman
fuente
fuente
Respuestas:
Programa en Python para el 95% de mi trabajo y el resto en R o MATLAB o IDL / PV-WAVE (y pronto SAS). Pero, estoy en un entorno donde el tiempo para obtener resultados es a menudo un gran impulsor del análisis elegido, por lo que a menudo también uso herramientas de apuntar y hacer clic. En mi experiencia, no existe una herramienta GUI única, robusta y flexible para hacer análisis, al igual que no hay un solo lenguaje. Por lo general, creo una colección del siguiente software gratuito y comercial
No he usado JMP, Stata, Statistica, etc., pero me gustaría.
El uso de estas herramientas implica aprender diferentes interfaces gráficas de usuario y múltiples abstracciones de modelado, lo cual es un dolor en ese momento pero me permite obtener resultados ad hoc más rápidos más adelante. Estoy en el mismo barco que el OP porque, aunque la mayoría de las personas con las que trabajo son realmente inteligentes, no les importa aprender un idioma, ni múltiples interfaces gráficas de usuario y terminología específica de la aplicación. Entonces, me resigné a aceptar que Excel impulsa el 90% del análisis en el mundo de los negocios. En consecuencia, estoy buscando usar cosas como pyinex para permitirme proporcionar mejores análisis a la misma capa de presentación de Excel que la gran mayoría de mis colegas esperan.
ACTUALIZACIÓN: Continuando con el tema Hacer-modelar-con-programación-pero-hacer-Excel-la-capa-presentación, acabo de encontrar el sitio web de este tipo que ofrece gráficos de estilo Tufte para incrustar en celdas de Excel. Simplemente impresionante y gratis!
fuente
En cuanto al análisis de datos exploratorio (posiblemente interactivo), sugeriría echar un vistazo a:
Los tres aceptan datos en
arff
ocsv
formato.En mi opinión, Stata no requiere tanta experiencia en programación. Esto es incluso parte de su atractivo, de hecho: la mayoría de los análisis básicos se pueden realizar mediante acciones de usuario de apuntar y hacer clic, con cuadros de diálogo para personalizar parámetros específicos, por ejemplo, para la predicción en un modelo lineal. Lo mismo se aplica, aunque en menor medida, a R cuando usa GUI externas como Rcmdr , Deducer, etc., como dice @ gsk3.
fuente
Algunas personas piensan que la programación es simplemente ingresar una instrucción de línea de comando. En ese momento, tal vez estés un poco perdido en alentarlos. Sin embargo, si ya están usando hojas de cálculo, entonces ya tienen que ingresar fórmulas. Estos son similares a las declaraciones de línea de comando. Si realmente quieren decir que no quieren hacer ninguna programación en el sentido del análisis lógico y automatizado, entonces puede decirles que aún pueden hacer los análisis en R o Stata sin ninguna programación.
Si pueden hacer sus estadísticas en la hoja de cálculo ... todo lo que quieren hacer ... entonces todos los análisis estadísticos que desean realizar se pueden hacer sin 'programar' en R o Stata también. Podrían organizar y organizar los datos en la hoja de cálculo y luego simplemente exportarlos como texto. Luego, el análisis se lleva a cabo sin ninguna programación.
Así es como hago la introducción a R a veces. No se requiere programación para hacer el análisis de datos que podría hacer en una hoja de cálculo.
Si los engancha de esa manera, simplemente enrolle el pescado lentamente ... :) En un par de años, felicítelos por el buen programador en el que se han convertido.
También es posible que desee mostrar este documento a sus colegas o al menos leerlo usted mismo para comprender mejor sus puntos.
fuente
Voy a poner un lanzamiento aquí para JMP. Tengo un par de razones por las cuales es mi herramienta preferida de exploración de datos sin programación:
fuente
Puedo recomendar Tableau como una buena herramienta para la exploración y visualización de datos, simplemente por las diferentes formas en que puede explorar y ver los datos, simplemente arrastrando y soltando. Los gráficos son bastante nítidos y puede exportarlos fácilmente a PDF para fines de presentación. Si lo desea, puede ampliarlo con algo de "programación". Regularmente uso esta herramienta junto con "R" y SAS y todos funcionan bien juntos.
fuente
Como dijo John, la exploración de datos no requiere mucha programación en R. Aquí hay una lista de comandos de exploración de datos que puede dar a las personas. (Se me ocurrió esto; seguramente puedes expandirlo).
Exporte los datos de cualquier paquete en el que se encuentre. (Exportar datos numéricos sin comillas es conveniente). Luego lea los datos en R.
Hacer una mesa.
Deje que R adivine qué tipo de gráfico le dará. A veces funciona muy bien.
Un montón de funciones de trazado específicas funcionan de manera bastante simple en variables individuales.
Tomando subconjuntos
Sintaxis similar a SQL en caso de que la gente esté acostumbrada a eso (más aquí )
PCA (tendrías más de dos variables, por supuesto).
fuente
Esto es más un lamento que una respuesta ...
El mejor software que he visto para esto es Arc , que está construido sobre Xlisp-Stat. Es un software fantástico para la exploración de datos con muchos gráficos interactivos integrados, así como muchas capacidades de inferencia estadística. En mi opinión, nada más se ha acercado a su facilidad de uso para la exploración de datos y la capacidad de ampliarlo aún más con la programación Lisp. En mi opinión, la interactividad en R está comenzando a ser utilizada de manera similar a Arc, diez largos años después. Y hasta donde yo sé, nadie ha usado estas capacidades para construir una interfaz interactiva que sea tan útil como Arc.
Desafortunadamente, nunca se dio cuenta, por lo que los desarrolladores han cambiado casi a trabajar en R; se actualizó por última vez en julio de 2004. Las versiones para PC y Linux / Unix aún funcionan y puede que valga la pena intentarlo, según sus necesidades; para Mac, la mejor opción es probar la versión de Linux / Unix bajo X11, así lo he hecho funcionar en un par de sistemas. La versión para Mac mencionada en el sitio solo funciona en Mac "Classic".
También mencionaré brevemente a Mondrian , que solo he intentado brevemente, pero parece tener una excelente interactividad gráfica para la exploración de datos, aunque (según recuerdo) no hay una manera fácil de extender las habilidades o hacer inferencia estadística.
fuente
Un nuevo sistema de software que parece prometedor para este propósito es Deducer , construido sobre R. Lamentablemente, al ser nuevo, sospecho que aún no cubre la amplitud de preguntas que la gente podría hacer, pero cumple con los requisitos. -criterio sobre el agua de llevar a las personas hacia un verdadero paquete si así lo deciden más adelante.
También he usado JMP en el pasado, que tenía una buena interactividad. Me preocupa que parte de la interfaz pueda ser demasiado complicada para estos fines. Y no es gratis, lo que hace que sea más difícil para los posibles refugiados de hojas de cálculo probar por capricho.
También hay sonajero que parece algo prometedor.
fuente
Para explorar qué datos contienen y limpiarlos, el antiguo Google Refine, ahora Open Refine , es una GUI bastante buena. Es mucho más poderoso para la preparación y limpieza que algo como Excel. Luego cambie a algo como R-Commander para sus análisis.
fuente
Cualquiera que responda R, o cualquiera de sus "GUI" no leyó la pregunta.
Hay un programa diseñado específicamente para esto y se llama JMP. Sí, es costoso, aunque tiene una versión de prueba gratuita y es increíblemente barato para los estudiantes o el personal de la universidad (como $ 50 baratos).
También está RapidMiner, que es una GUI basada en flujo de trabajo para minería de datos y análisis estadístico. Es gratis y de código abierto.
fuente
Bueno, esta herramienta en particular es popular en mi industria (aunque no es específica de la industria por diseño): http://www.umetrics.com/simca
Le permite hacer análisis multivariados de tipo variable latente (PCA y PLS), e incluye todos los gráficos / cálculos interpretativos concomitantes y herramientas de interrogación como gráficos de contribución, gráficos de importancia variable, cálculos Q2, etc.
A menudo se usa en conjuntos de datos industriales de alta dimensión (y a menudo altamente correlacionados / colineales) donde los métodos de tipo OLS / MLR no son adecuados (por ejemplo, información de una carga de sensores, información de registro, etc.).
Funciona en un entorno totalmente GUI, y el usuario no tiene que escribir una sola línea de código. Lamentablemente, no es gratuito y no se puede ampliar a través de la programación.
fuente
En mi opinión, si no codificas la prueba, eres propenso a errores y malentendidos de los resultados.
Creo que debería recomendarles que contraten a un estadístico que tenga conocimientos de informática.
Si se trata de hacer siempre lo mismo, entonces, de hecho, puede usar una pequeña herramienta (caja negra) que hará las cosas. Pero no estoy seguro de que esto todavía se llame exploración de datos.
fuente
Recomendaría el paquete R de John Fox llamado R commander:
http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/
Crea una interfaz de usuario similar a SPSS (o similar) que es excelente para principiantes y no requiere que el usuario ingrese ningún código. Todo se hace a través de cuadros desplegables (incluso puede minimizar la consola R mientras trabaja).
Para mí, el beneficio de este paquete es que puede aprovechar toda la gran capacidad computacional de R mientras tiene una interfaz de usuario que es completamente operativa para principiantes.
fuente
Otra herramienta útil, aunque solo para Windows, es Spotfire : me pareció bastante útil para observar rápidamente varios histogramas y diagramas de dispersión para variables únicas y pares. Una herramienta de investigación que lo ayuda a clasificar las variables individuales y los pares basados en estadísticas simples: el Explorador de agrupación jerárquica de HCIL. Es bueno para encontrar las variables / pares de variables más interesantes.
fuente