A menudo escuchamos sobre la gestión de proyectos y los patrones de diseño en informática, pero con menos frecuencia en análisis estadísticos. Sin embargo, parece que un paso decisivo hacia el diseño de un proyecto estadístico efectivo y duradero es mantener las cosas organizadas.
A menudo abogo por el uso de R y una organización consistente de archivos en carpetas separadas (archivo de datos sin procesar, archivo de datos transformados, scripts R, figuras, notas, etc.). La razón principal de este enfoque es que puede ser más fácil ejecutar su análisis más tarde (cuando olvidó cómo produjo un gráfico determinado, por ejemplo).
¿Cuáles son las mejores prácticas para la gestión estadística de proyectos , o las recomendaciones que le gustaría dar desde su propia experiencia? Por supuesto, esto se aplica a cualquier software estadístico. ( una respuesta por publicación, por favor )
Respuestas:
Estoy compilando una serie rápida de pautas que encontré en SO (como lo sugirió @Shane), Biostar (en adelante, BS) y este SE. Hice todo lo posible para reconocer la propiedad de cada elemento y seleccionar la primera respuesta o la que recibió más votos. También agregué cosas propias y marqué elementos que son específicos del entorno [R].
Gestión de datos
Codificación
Análisis
Versionado
Edición / Informes
Como nota al margen, Hadley Wickham ofrece una visión general integral de la gestión de proyectos de R , que incluye ejemplos reproducibles y una filosofía unificada de datos .
Finalmente, en su Flujo de trabajo de análisis estadístico de datos orientado a R, Oliver Kirchkamp ofrece una descripción muy detallada de por qué adoptar y obedecer un flujo de trabajo específico ayudará a los estadísticos a colaborar entre sí, al tiempo que garantiza la integridad de los datos y la reproducibilidad de los resultados. Incluye además una discusión sobre el uso de un sistema de tejido y control de versiones. Los usuarios de Stata también pueden encontrar útil el flujo de trabajo de análisis de datos de J. Scott Long con Stata .
fuente
Esto no proporciona una respuesta específica, pero es posible que desee ver estas preguntas relacionadas con stackoverflow:
También puede estar interesado en el reciente proyecto de John Myles White para crear una plantilla de proyecto estadístico.
fuente
Esto se superpone con la respuesta de Shane, pero en mi opinión hay dos pilares principales:
fuente
van Belle es la fuente de las reglas de proyectos estadísticos exitosos.
fuente
Solo mis 2 centavos. He encontrado Notepad ++ útil para esto. Puedo mantener scripts separados (control de programa, formateo de datos, etc.) y un archivo .pad para cada proyecto. La llamada al archivo .pad es todos los scripts asociados con ese proyecto.
fuente
Si bien las otras respuestas son geniales, agregaría otro sentimiento: evite usar SPSS. Utilicé SPSS para mi tesis de maestría y ahora en mi trabajo habitual en investigación de mercado.
Mientras trabajaba con SPSS, fue increíblemente difícil desarrollar un código estadístico organizado, debido al hecho de que SPSS es malo para manejar múltiples archivos (seguro, puede manejar múltiples archivos, pero no es tan sencillo como R), porque no puede almacenar conjuntos de datos a una variable, debe usar el código "conjunto de datos activar x", que puede ser una molestia total. Además, la sintaxis es torpe y alienta las shorthands, lo que hace que el código sea aún más ilegible.
fuente
Los Cuadernos Jupyter, que funcionan con R / Python / Matlab / etc, eliminan la molestia de recordar qué script genera una determinada figura. Esta publicación describe una forma ordenada de mantener el código y la figura uno al lado del otro. Mantener todas las cifras para un capítulo de papel o tesis en un solo cuaderno hace que el código asociado sea muy fácil de encontrar.
Incluso mejor, de hecho, porque puede desplazarse, digamos, una docena de figuras para encontrar la que desea. El código se mantiene oculto hasta que se necesita.
fuente