Sé que la mayoría de ustedes probablemente sienta que Google Docs sigue siendo una herramienta primitiva. No es Matlab o R y ni siquiera Excel. Sin embargo, estoy desconcertado por el poder de este software basado en la web que solo usa la capacidad operativa de un navegador (y es compatible con muchos navegadores que funcionan de manera muy diferente).
Mike Lawrence, activo en este foro, ha compartido una hoja de cálculo con nosotros usando Google Docs haciendo algunas cosas muy elegantes. Personalmente, he replicado un marco de prueba de hipótesis bastante completo (incluidas numerosas pruebas paramétricas y no paramétricas) originalmente realizado en Excel en Google Docs.
Me interesa si alguno de ustedes ha probado Google Docs y lo ha llevado al límite en aplicaciones interesantes. También me interesa saber acerca de los errores o fallas que ha encontrado con Google Docs
Estoy designando esta pregunta "para el wiki de la comunidad" que denota que no hay mejores respuestas para esto. Es más una encuesta que otra cosa.
fuente
Respuestas:
Mi uso principal para las hojas de cálculo de Google ha sido con formularios de Google, para recopilar datos y luego importarlos fácilmente a R. Aquí hay una publicación que escribí sobre ella hace medio año:
Hojas de cálculo de Google + formularios de Google + R = Recopilar e importar fácilmente datos para su análisis
Además, si te gusta la colaboración, mi herramienta de elección es DropBox. Escribí una publicación al respecto hace unos meses:
Sincronizar archivos a través de computadoras usando DropBox
Lo he estado usando durante aproximadamente medio año en un proyecto con 5 coautores, y ha sido invaluable (sincronizando archivos de datos de 3 contribuyentes, todos pueden ver la última versión del resultado que estoy produciendo, y todos están buscando en el mismo archivo .docx para el artículo).
Ambas publicaciones ofrecen tutoriales en video e instrucciones verbales.
fuente
Como usuario entusiasta de R, bash, Python, asciidoc, (La) TeX, software de código abierto o cualquier herramienta un * x, no puedo proporcionar una respuesta objetiva. Además, como a menudo argumento en contra del uso de MS Excel u hoja de cálculo de cualquier tipo (bueno, ves tus datos, o parte de ellos, pero ¿qué más?), No contribuiría positivamente al debate. No soy el único, por ej.
Un colega mío perdió todas sus macros debido a la falta de compatibilidad con versiones anteriores, etc. Otro colega intentó importar datos genéticos (alrededor de 700 sujetos genotipados en 800,000 marcadores, 120 Mo), solo para "mirarlos". Excel falló, el Bloc de notas también se rindió ... Soy capaz de "mirarlos" con vi y reformatear rápidamente los datos con algún script sed / awk o perl. Por lo tanto, creo que hay diferentes niveles a considerar cuando se discute sobre la utilidad de las hojas de cálculo. O trabajas en pequeños conjuntos de datos, y solo quieres aplicar cosas estadísticas elementales y tal vez esté bien. Luego, depende de usted confiar en los resultados, o siempre puede solicitar el código fuente, pero tal vez sería más simple hacer una prueba rápida de todos los procedimientos en línea con el punto de referencia NIST. No creo que corresponda a una buena forma de hacer estadísticas simplemente porque este no es un verdadero software estadístico (en mi humilde opinión), aunque como una actualización de la lista mencionada anteriormente, las versiones más nuevas de MS Excel parecen haber demostrado mejoras en su precisión para análisis estadísticos, ver Keeling y Pavur, un estudio comparativo de la confiabilidad de nueve paquetes de software estadístico ( CSDA 2007 51: 3811).
Aún así, aproximadamente un papel de 10 o 20 (en biomedicina, psicología, psiquiatría) incluye gráficos hechos con Excel, a veces sin quitar el fondo gris, la línea negra horizontal o la leyenda automática (Andrew Gelman y Hadley Wickham son tan felices como yo al verlo). Pero, en general, tiende a ser el "software" más utilizado según una encuesta reciente en FlowingData, que me recuerda una vieja charla de Brian Ripley (coautor del paquete MASS R y escribe un excelente libro sobre reconocimiento de patrones) , entre otros):
Ahora, si cree que le proporciona una forma rápida y fácil de realizar sus estadísticas, ¿por qué no? El problema es que todavía hay cosas que no se pueden hacer (o al menos es bastante complicado) en ese entorno. Pienso en bootstrap, permutación, análisis de datos exploratorios multivariados, por nombrar algunos. A menos que sea muy competente en VBA (que no es ni un lenguaje de programación ni de programación), me inclino a pensar que incluso las operaciones menores en los datos se manejan mejor bajo R (o Matlab o Python, siempre que obtenga la herramienta adecuada para tratar con, por ejemplo, el llamado data.frame). Sobre todo, creo que Excel no promueve muy buenas prácticas para el analista de datos (pero también se aplica a cualquier "cliquódromo", vea la discusión en Medstats sobre la necesidad de mantener un registro del procesamiento de datos,Documentando análisis y ediciones de datos ), y encontré esta publicación en Estadísticas prácticas relativamente ilustrativa de algunos de los escollos de Excel. Aún así, se aplica a Excel, no sé cómo se traduce a GDocs.
Al compartir su trabajo, tiendo a pensar que Github (o Gist para el código fuente) o Dropbox (aunque EULA podría desalentar a algunas personas) son muy buenas opciones (historial de revisiones, gestión de subvenciones si es necesario, etc.). No puedo alentar el uso de un software que básicamente almacena sus datos en formato binario. Sé que se puede importar en R, Matlab, Stata, SPSS, pero en mi opinión:
Eso es.
fuente
"También me interesa saber acerca de los errores o fallas que ha encontrado con Google Docs".
Solo responderé a esa parte de la pregunta original. Mis exploraciones con las hojas de cálculo de Google Docs (GSheets) se han ocupado de las funciones matemáticas y estadísticas. Al final, mi evaluación es que Google Spreadsheets es, en ese sentido, muy inferior en 2012 al difamado Excel de 1997.
Testigo: Google Sheets aparentemente evalúa erfc (x) usando erfc (x) = 1-erf (x) para argumentos para los cuales erf (x) está cerca de 1. Evalúan una desviación estándar o una varianza a través del promedio de los cuadrados menos el cuadrado de la media; Es una mala práctica numérica. Funciones combinatorias y probabilidades discretas como poisson (n, x) = pow (x, n) * exp (-x) / n! se evalúan factor por factor, causando un desbordamiento innecesario. El factorial se evalúa utilizando el factor de aproximación de Stirling por factor, lo que provoca un desbordamiento innecesario adicional. La distribución acumulativa de Poisson se evalúa simplemente haciendo la suma finita, por lo que la propiedad de normalización se pierde en el redondeo; Lo mismo es cierto para la distribución binomial acumulativa. La distribución normal acumulativa está completamente desordenada; sale del rango [0,1]. Hay una pérdida general de precisión en relación con las implementaciones de las mismas funciones en otros paquetes. Las descripciones de funciones elementales como el redondeo son a menudo confusas e ininteligibles; La interpretación es un juego de adivinanzas.
He documentado estos problemas en dos conjuntos de publicaciones en los foros de productos de Google Docs:
(2011-11-13 y posterior) normdist arroja valor negativo todavía https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/
(2012-05-06 y posterior) Errores y otros problemas con funciones estadísticas y matemáticas en GSheets https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/
fuente