Necesito copiar 20 TB de datos en una matriz de rayos. El cuadro donde existen los datos no tiene una conexión de rayo, por lo que tendré que utilizar la red local de 1 GB para esto. (Sí, tomará una eternidad).
Intenté usar Filezilla / sftp, pero se bloqueó cuando la cola se hizo muy grande. ¿Es rsync o scp el camino a seguir?
data-transfer
thunderbolt
rsync
lacinda
fuente
fuente
Respuestas:
rsync es un buen camino a seguir (scp es más o menos lo mismo con menos funciones). Es posible que desee utilizar la
-Z
opción, que habilitará la compresión zlib. Dependiendo de lo rápido que sean sus unidades / computadora, puede ser más rápido que enviar sin comprimir, es decir, si su enlace de red está saturado. También es posible que desee la opción de modo de archivo,-a
que preservará los enlaces simbólicos, los permisos y los tiempos de creación / modificación, además de copiar directorios de forma recursiva. Dependiendo de lo que esté copiando, es posible-E
que desee que conserve los atributos extendidos y las horquillas de recursos mac. Finalmente,--progress
le mostraremos información de progreso.fuente
Aunque no es tan omnipresente como rsync, en el pasado he usado una herramienta llamada "mpscp" - http://www.sandia.gov/MPSCP/mpscp_design.htm
De Sandia National Labs, es una herramienta de copia de archivos que se ejecuta sobre SSH que está especialmente optimizada para saturar redes de alta velocidad entre sistemas cercanos (como copiar terabytes de datos entre dos supercomputadoras en el mismo sitio, conectados a través de 10 Gb + o Infiniband). Funciona bien, pero puede ser un poco difícil de configurar. En las pruebas, lo he visto fácilmente correr 2x-3x más rápido que rsync.
fuente
Use rsync y considere usarlo con rsyncd. Si usa rsync sin rsyncd, está atascado con ssh, lo que significa usar algún tipo de cifrado. Probablemente esté copiando los datos de una máquina más antigua a una máquina más nueva y es posible que la máquina más antigua no tenga el gruñido de la CPU para cifrar los datos para la transmisión lo suficientemente rápido como para mantener un enlace Ethernet gigabit saturado. Pruebe transferir lotes de archivos con ambos métodos y vea qué camino es más rápido.
Por la misma razón, recomendaría probar el uso de la opción de compresión de rsync antes de comprometerse a usarla. La compresión es otra actividad intensiva de la CPU que podría no ser capaz de mantenerse al día con las velocidades de gigabit Ethernet cuando se intenta en hardware antiguo. rsync es un programa de quince años, escrito cuando la mayoría de las personas, incluso en los países del primer mundo, accedieron a Internet a través de un módem de acceso telefónico. El ancho de banda de la red frente a las compensaciones de la CPU era muy diferente entonces.
fuente
-e
opción. Con la misma opción, puede cambiar las opciones de ssh para usar un cifrado menos intensivo en CPU:-e 'ssh -c arcfour,blowfish-cbc'
o similares. No sé si esto hace alguna diferencia de velocidad con una máquina moderna, pero puede valer la pena un punto de referencia rápido, especialmente con 20 TB de archivos.¿Este paquete de 20 TB está empaquetado en una pequeña cantidad de archivos grandes (como video, base de datos de monstruos) o millones de archivos más pequeños?
Si hubiera muchos archivos pequeños, iría con rsync para reiniciar o un flujo de tar entubado para eficiencia (una conexión de red para el lote, comenzar de nuevo desde el principio si falla)
La carpeta remota debe estar montada.
¿Podría adjuntar directamente la nueva matriz con una interfaz diferente? Local rsync no usa ssh, por lo que elimina ese punto de falla. Sí, Firewire 800 es más lento que Gigabit Ethernet, pero no puede cargar Ethernet al 100%; FireWire podría hacerlo más rápido. Para su información, también puede conectar FireWire si las cajas están lo suficientemente cerca. Agregue la interfaz en las preferencias del sistema -> red.
fuente
Otra opción sería probar Bittorrent Sync ( http://www.bittorrent.com/sync ). Lo he usado para sincronizar fotos y videos familiares entre miembros de nuestra familia a través de la WAN, pero no hay razón para que no funcione para la red local. Utiliza conexiones punto a punto, por lo que los datos no pasarían a través de un servidor como lo haría si intentara usar algo como Dropbox (no creo que tenga 20 TB de espacio de Dropbox o quiera esperar tanto para cargar tanto) ¡datos!)
También es compatible con múltiples plataformas, por lo que tiene más flexibilidad que rsync y tar.
fuente