¿Algunos de ustedes usan la hoja de cálculo de Google Docs para realizar y compartir su trabajo estadístico con otros?

15

Sé que la mayoría de ustedes probablemente sienta que Google Docs sigue siendo una herramienta primitiva. No es Matlab o R y ni siquiera Excel. Sin embargo, estoy desconcertado por el poder de este software basado en la web que solo usa la capacidad operativa de un navegador (y es compatible con muchos navegadores que funcionan de manera muy diferente).

Mike Lawrence, activo en este foro, ha compartido una hoja de cálculo con nosotros usando Google Docs haciendo algunas cosas muy elegantes. Personalmente, he replicado un marco de prueba de hipótesis bastante completo (incluidas numerosas pruebas paramétricas y no paramétricas) originalmente realizado en Excel en Google Docs.

Me interesa si alguno de ustedes ha probado Google Docs y lo ha llevado al límite en aplicaciones interesantes. También me interesa saber acerca de los errores o fallas que ha encontrado con Google Docs

Estoy designando esta pregunta "para el wiki de la comunidad" que denota que no hay mejores respuestas para esto. Es más una encuesta que otra cosa.

Gaetan Lion
fuente
¿Podría vincular a la hoja de cálculo que proporcionó Mike Lawrence?
Andy W
Aquí está la URL spreadsheets.google.com/… Estaba relacionada con su pregunta stats.stackexchange.com/questions/2956/…
Sympa
1
Los documentos de Google, cuando se probaron formalmente, tuvieron un desempeño miserable en la mayoría de los cálculos estadísticos (cuando podría hacerlos). Ver Kellie B. Keeling y Robert J. Pavur (2011): Precisión estadística del software de hoja de cálculo, The American Statistician, 65: 4, 265-273
whuber

Respuestas:

12

Mi uso principal para las hojas de cálculo de Google ha sido con formularios de Google, para recopilar datos y luego importarlos fácilmente a R. Aquí hay una publicación que escribí sobre ella hace medio año:

Hojas de cálculo de Google + formularios de Google + R = Recopilar e importar fácilmente datos para su análisis

Además, si te gusta la colaboración, mi herramienta de elección es DropBox. Escribí una publicación al respecto hace unos meses:

Sincronizar archivos a través de computadoras usando DropBox

Lo he estado usando durante aproximadamente medio año en un proyecto con 5 coautores, y ha sido invaluable (sincronizando archivos de datos de 3 contribuyentes, todos pueden ver la última versión del resultado que estoy produciendo, y todos están buscando en el mismo archivo .docx para el artículo).

Ambas publicaciones ofrecen tutoriales en video e instrucciones verbales.

Tal Galili
fuente
Gracias por sus comentarios. Este es el tipo exacto de comentarios en los que estaba interesado. Realmente ha aprovechado el componente para compartir e importar documentos de Google. Bien por usted. Leeré tu material para obtener más información al respecto.
Sympa
Estimado Gaetan: Estoy encantado con su respuesta. Gracias por las amables palabras. Lo mejor, Tal.
Tal Galili
19

Como usuario entusiasta de R, bash, Python, asciidoc, (La) TeX, software de código abierto o cualquier herramienta un * x, no puedo proporcionar una respuesta objetiva. Además, como a menudo argumento en contra del uso de MS Excel u hoja de cálculo de cualquier tipo (bueno, ves tus datos, o parte de ellos, pero ¿qué más?), No contribuiría positivamente al debate. No soy el único, por ej.

Un colega mío perdió todas sus macros debido a la falta de compatibilidad con versiones anteriores, etc. Otro colega intentó importar datos genéticos (alrededor de 700 sujetos genotipados en 800,000 marcadores, 120 Mo), solo para "mirarlos". Excel falló, el Bloc de notas también se rindió ... Soy capaz de "mirarlos" con vi y reformatear rápidamente los datos con algún script sed / awk o perl. Por lo tanto, creo que hay diferentes niveles a considerar cuando se discute sobre la utilidad de las hojas de cálculo. O trabajas en pequeños conjuntos de datos, y solo quieres aplicar cosas estadísticas elementales y tal vez esté bien. Luego, depende de usted confiar en los resultados, o siempre puede solicitar el código fuente, pero tal vez sería más simple hacer una prueba rápida de todos los procedimientos en línea con el punto de referencia NIST. No creo que corresponda a una buena forma de hacer estadísticas simplemente porque este no es un verdadero software estadístico (en mi humilde opinión), aunque como una actualización de la lista mencionada anteriormente, las versiones más nuevas de MS Excel parecen haber demostrado mejoras en su precisión para análisis estadísticos, ver Keeling y Pavur, un estudio comparativo de la confiabilidad de nueve paquetes de software estadístico ( CSDA 2007 51: 3811).

Aún así, aproximadamente un papel de 10 o 20 (en biomedicina, psicología, psiquiatría) incluye gráficos hechos con Excel, a veces sin quitar el fondo gris, la línea negra horizontal o la leyenda automática (Andrew Gelman y Hadley Wickham son tan felices como yo al verlo). Pero, en general, tiende a ser el "software" más utilizado según una encuesta reciente en FlowingData, que me recuerda una vieja charla de Brian Ripley (coautor del paquete MASS R y escribe un excelente libro sobre reconocimiento de patrones) , entre otros):

No nos engañemos: el software más utilizado para las estadísticas es Excel (B. Ripley a través de Jan De Leeuw), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf

Ahora, si cree que le proporciona una forma rápida y fácil de realizar sus estadísticas, ¿por qué no? El problema es que todavía hay cosas que no se pueden hacer (o al menos es bastante complicado) en ese entorno. Pienso en bootstrap, permutación, análisis de datos exploratorios multivariados, por nombrar algunos. A menos que sea muy competente en VBA (que no es ni un lenguaje de programación ni de programación), me inclino a pensar que incluso las operaciones menores en los datos se manejan mejor bajo R (o Matlab o Python, siempre que obtenga la herramienta adecuada para tratar con, por ejemplo, el llamado data.frame). Sobre todo, creo que Excel no promueve muy buenas prácticas para el analista de datos (pero también se aplica a cualquier "cliquódromo", vea la discusión en Medstats sobre la necesidad de mantener un registro del procesamiento de datos,Documentando análisis y ediciones de datos ), y encontré esta publicación en Estadísticas prácticas relativamente ilustrativa de algunos de los escollos de Excel. Aún así, se aplica a Excel, no sé cómo se traduce a GDocs.

Al compartir su trabajo, tiendo a pensar que Github (o Gist para el código fuente) o Dropbox (aunque EULA podría desalentar a algunas personas) son muy buenas opciones (historial de revisiones, gestión de subvenciones si es necesario, etc.). No puedo alentar el uso de un software que básicamente almacena sus datos en formato binario. Sé que se puede importar en R, Matlab, Stata, SPSS, pero en mi opinión:

  • los datos deben estar definitivamente en formato de texto, que puedan ser leídos por otro software estadístico;
  • el análisis debe ser reproducible, lo que significa que debe proporcionar un script completo para su análisis y debe ejecutarse (nos acercamos al caso ideal cerca de aquí ...) en otro sistema operativo en cualquier momento;
  • su propio software estadístico debe implementar algoritmos reconocidos y debe haber una manera fácil de actualizarlo para reflejar las mejores prácticas actuales en modelado estadístico;
  • El sistema de intercambio que elija debe incluir versiones y recursos de colaboración.

Eso es.

chl
fuente
@Gaetan Aparte de mi respuesta, le di mi +1 a la pregunta porque creo que es muy relevante para debatir sobre la práctica estadística y la gestión de proyectos.
chl
Un comentario para el voto negativo sería muy apreciado.
chl
@chl: aunque no rechacé esta respuesta, creo que entiendo por qué uno la rechazaría. La información que ha proporcionado es correcta, muy, muy importante y estimulante. SIN EMBARGO, la mayor parte (excepto los dos últimos párrafos) no responde la pregunta. Idealmente, uno escribiría este gran descargo de responsabilidad en otro lugar y le daría un enlace.
Boris Gorelik
@chl: a pesar de lo que dije en mi comentario, me encanta tu respuesta y la voté a favor
Boris Gorelik
@bgbg Gracias por tu comentario. Tal vez no respondí la pregunta de CW. Sin embargo, nunca tuve la intención de dar una respuesta puramente provocativa. El OP preguntó sobre posibles "errores y fallas" en GDocs: proporciono ilustraciones sobre lo que sé de Excel, reconociendo el hecho de que no sé cómo se traduciría a GDocs. También entiendo parte de la pregunta como "cuáles son los beneficios de usar GDocs para el análisis de datos", y acabo de dar algunos argumentos en contra del uso de la hoja de cálculo para proyectos a gran escala, o análisis a la vanguardia (aún así, reconocí en el comenzando que esto sería parcial).
chl
10

"También me interesa saber acerca de los errores o fallas que ha encontrado con Google Docs".

Solo responderé a esa parte de la pregunta original. Mis exploraciones con las hojas de cálculo de Google Docs (GSheets) se han ocupado de las funciones matemáticas y estadísticas. Al final, mi evaluación es que Google Spreadsheets es, en ese sentido, muy inferior en 2012 al difamado Excel de 1997.

Testigo: Google Sheets aparentemente evalúa erfc (x) usando erfc (x) = 1-erf (x) para argumentos para los cuales erf (x) está cerca de 1. Evalúan una desviación estándar o una varianza a través del promedio de los cuadrados menos el cuadrado de la media; Es una mala práctica numérica. Funciones combinatorias y probabilidades discretas como poisson (n, x) = pow (x, n) * exp (-x) / n! se evalúan factor por factor, causando un desbordamiento innecesario. El factorial se evalúa utilizando el factor de aproximación de Stirling por factor, lo que provoca un desbordamiento innecesario adicional. La distribución acumulativa de Poisson se evalúa simplemente haciendo la suma finita, por lo que la propiedad de normalización se pierde en el redondeo; Lo mismo es cierto para la distribución binomial acumulativa. La distribución normal acumulativa está completamente desordenada; sale del rango [0,1]. Hay una pérdida general de precisión en relación con las implementaciones de las mismas funciones en otros paquetes. Las descripciones de funciones elementales como el redondeo son a menudo confusas e ininteligibles; La interpretación es un juego de adivinanzas.

He documentado estos problemas en dos conjuntos de publicaciones en los foros de productos de Google Docs:

(2011-11-13 y posterior) normdist arroja valor negativo todavía https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/

(2012-05-06 y posterior) Errores y otros problemas con funciones estadísticas y matemáticas en GSheets https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/

Bas Braams
fuente
1
(+1) En otras palabras, parece evidente que ( ¡muchos! ) Los estadísticos de Google no están involucrados de ninguna manera en este proyecto.
cardenal
La única parte de Google Docs que utilicé es el editor, que es muy útil cuando se edita en colaboración en tiempo real . ¡No creo que git y sus amigos resuelvan ese problema!
kjetil b halvorsen