Quiero que mis datos y modelos se almacenen en cubos separados de Google Cloud. La idea es que quiero poder compartir los datos con otros sin compartir los modelos.
Una idea que se me ocurre es usar submódulos git separados para datos y modelos. Pero eso se siente engorroso e impone algunos requisitos adicionales del usuario final (por ejemplo, tener que hacerlo git submodule update
).
Entonces, ¿puedo hacer esto sin usar submódulos git?
Sí, puede usar múltiples controles remotos sin submódulos Git.
Hay un comando separado para usar artefactos de datos de repositorios externos:
dvc import http://your-repo datadir
el comando trae datos a su repositorio y mantiene la conexión con el repositorio original (para evitar la duplicación de datos en diferentes controles remotos).En su caso, se puede usar un repositorio para un conjunto de datos con su propio control remoto de datos. Se puede usar un segundo repositorio para el código y los modelos que importan el proyecto de conjunto de datos, mientras que todos sus modelos y salidas se dirigen a otro control remoto de datos.
Con
import
, nodvc push -r myremote
se necesitan. Unadvc push
sincronización predeterminada de datos en un control remoto adecuado.EDITADO: Simplemente use un repositorio de Git para el conjunto de datos con su carpeta de datos remotos / S3 e impórtelo desde otro repositorio con código, modelo y otra carpeta de datos remotos / S3.
fuente