¿Qué programa debo usar para transferir datos de 20 TB a través de la red?

10

Necesito copiar 20 TB de datos en una matriz de rayos. El cuadro donde existen los datos no tiene una conexión de rayo, por lo que tendré que utilizar la red local de 1 GB para esto. (Sí, tomará una eternidad).

Intenté usar Filezilla / sftp, pero se bloqueó cuando la cola se hizo muy grande. ¿Es rsync o scp el camino a seguir?

lacinda
fuente
2
¿Puede sacar la unidad del dispositivo anterior y conectarla directamente?
Concurre con el comentario anterior. La transferencia física tiene el mayor ancho de banda.
Siyuan Ren
Me encanta Carbon Copy Cloner, que es una buena utilidad GUI basada en rsync. El desarrollador bifurcó rsync e hizo muchas mejoras. No puedo hablar de la velocidad frente a rsync y / o tar o lo que sea, pero es mi opción para cualquier tipo de transferencia de datos, donde quiero saber sin lugar a dudas que mis datos son buenos una vez que todo está dicho y hecho. Y si no es así, CCC me lo dirá.
Harv
Me sorprende que no haya referencias a Fedex .
tedder42

Respuestas:

16

rsync es un buen camino a seguir (scp es más o menos lo mismo con menos funciones). Es posible que desee utilizar la -Zopción, que habilitará la compresión zlib. Dependiendo de lo rápido que sean sus unidades / computadora, puede ser más rápido que enviar sin comprimir, es decir, si su enlace de red está saturado. También es posible que desee la opción de modo de archivo, -aque preservará los enlaces simbólicos, los permisos y los tiempos de creación / modificación, además de copiar directorios de forma recursiva. Dependiendo de lo que esté copiando, es posible -Eque desee que conserve los atributos extendidos y las horquillas de recursos mac. Finalmente, --progressle mostraremos información de progreso.

Michael DM Dryden
fuente
11
rsync también es bueno para reiniciar la copia si hay una interrupción.
Lee Joramo
3
Secundario @LeeJoramo, poder retomar donde dejó una transferencia fallida es extremadamente importante. Una transferencia de este grande va a fallar en algún momento, y usted querrá asegurarse de que usted no pierde cualquier progreso que ha realizado hasta ese momento.
blahdiblah
6

Aunque no es tan omnipresente como rsync, en el pasado he usado una herramienta llamada "mpscp" - http://www.sandia.gov/MPSCP/mpscp_design.htm

De Sandia National Labs, es una herramienta de copia de archivos que se ejecuta sobre SSH que está especialmente optimizada para saturar redes de alta velocidad entre sistemas cercanos (como copiar terabytes de datos entre dos supercomputadoras en el mismo sitio, conectados a través de 10 Gb + o Infiniband). Funciona bien, pero puede ser un poco difícil de configurar. En las pruebas, lo he visto fácilmente correr 2x-3x más rápido que rsync.

Yeraze
fuente
3

Use rsync y considere usarlo con rsyncd. Si usa rsync sin rsyncd, está atascado con ssh, lo que significa usar algún tipo de cifrado. Probablemente esté copiando los datos de una máquina más antigua a una máquina más nueva y es posible que la máquina más antigua no tenga el gruñido de la CPU para cifrar los datos para la transmisión lo suficientemente rápido como para mantener un enlace Ethernet gigabit saturado. Pruebe transferir lotes de archivos con ambos métodos y vea qué camino es más rápido.

Por la misma razón, recomendaría probar el uso de la opción de compresión de rsync antes de comprometerse a usarla. La compresión es otra actividad intensiva de la CPU que podría no ser capaz de mantenerse al día con las velocidades de gigabit Ethernet cuando se intenta en hardware antiguo. rsync es un programa de quince años, escrito cuando la mayoría de las personas, incluso en los países del primer mundo, accedieron a Internet a través de un módem de acceso telefónico. El ancho de banda de la red frente a las compensaciones de la CPU era muy diferente entonces.

Kyle Jones
fuente
Tienes razón en que rsync usa de manera predeterminada ssh, pero esa no es la única opción. Puede hacer que use rsh en su lugar usando la -eopción. Con la misma opción, puede cambiar las opciones de ssh para usar un cifrado menos intensivo en CPU: -e 'ssh -c arcfour,blowfish-cbc'o similares. No sé si esto hace alguna diferencia de velocidad con una máquina moderna, pero puede valer la pena un punto de referencia rápido, especialmente con 20 TB de archivos.
Michael DM Dryden
3

¿Este paquete de 20 TB está empaquetado en una pequeña cantidad de archivos grandes (como video, base de datos de monstruos) o millones de archivos más pequeños?

Si hubiera muchos archivos pequeños, iría con rsync para reiniciar o un flujo de tar entubado para eficiencia (una conexión de red para el lote, comenzar de nuevo desde el principio si falla)

tar -cf - * | ( cd newhome; tar -xf - )

La carpeta remota debe estar montada.

¿Podría adjuntar directamente la nueva matriz con una interfaz diferente? Local rsync no usa ssh, por lo que elimina ese punto de falla. Sí, Firewire 800 es más lento que Gigabit Ethernet, pero no puede cargar Ethernet al 100%; FireWire podría hacerlo más rápido. Para su información, también puede conectar FireWire si las cajas están lo suficientemente cerca. Agregue la interfaz en las preferencias del sistema -> red.

Pablo
fuente
0

Otra opción sería probar Bittorrent Sync ( http://www.bittorrent.com/sync ). Lo he usado para sincronizar fotos y videos familiares entre miembros de nuestra familia a través de la WAN, pero no hay razón para que no funcione para la red local. Utiliza conexiones punto a punto, por lo que los datos no pasarían a través de un servidor como lo haría si intentara usar algo como Dropbox (no creo que tenga 20 TB de espacio de Dropbox o quiera esperar tanto para cargar tanto) ¡datos!)

También es compatible con múltiples plataformas, por lo que tiene más flexibilidad que rsync y tar.

KenB
fuente