Transfiera 10 TB de archivos del centro de datos de EE. UU. Al Reino Unido

96

Estoy migrando mi servidor de EE. UU. Al Reino Unido de un centro de datos a otro. Mi anfitrión dijo que debería poder alcanzar 11 megabytes por segundo.

El sistema operativo es Windows Server 2008 en ambos extremos.

Mi tamaño de archivo promedio es de alrededor de 100 MB y los datos se dividen en cinco unidades de 2 TB.

¿Cuál sería la forma recomendada de transferir estos archivos?

  • FTP
  • SMB
  • Rsync / Robocopy
  • ¿Otro?

No me preocupa demasiado la seguridad, ya que estos son archivos públicos de todos modos, pero solo quiero una solución que pueda impulsar la velocidad de transferencia completa de 11 MB / s para minimizar el tiempo total de transferencia.

Paul Hinett
fuente
19
¿11 MB / so 11 Mb / s?
wim
14
transfiera los datos a la tarjeta perforada binaria y use una paloma mensajera :)
enterzero
99
Debes proporcionar detalles. ¿Cuántas palomas mensajeras crees que se necesitarían? Muestra tu trabajo.
Evik James
18
@Evik europeo o africano?
wim
8
Por otro lado, Wolfram Alpha es la forma más conveniente de hacer el cálculo, "10 TB a 11MB / s". wolframalpha.com/input/?i=10+TB+at+11MB%2Fs
pez globo

Respuestas:

173

Envíe discos duros a través del océano.

A 11 Mbps con plena utilización, está buscando apenas 90 días para transferir 10 TB.


11 Mbps = 1.375 MBps = 116.015 GB / día .

10240 GB / 116.015 GB / día = ~ 88.3 días .

Shane Madden
fuente
42
+1 para Sneakernet . Además, olvidó la sobrecarga de TCP / IP. Es más como ~ 100 días en circunstancias ideales.
Chris S
43
Un hombre sabio dijo una vez: "Nunca subestimes el ancho de banda de una camioneta llena de cintas que se precipitan por la carretera". Esta ecuación es muy cierta y no se modifica sustancialmente al cambiar la camioneta por un bote. ( bpfh.net/sysadmin/never-underestimate-bandwidth.html )
Rob Moir
55
Es mejor enviar cintas o discos blueray, en lugar de unidades. Si va con unidades, asegúrese de que los originales se mantengan seguros y disponibles por si acaso. Yo mismo elegiría las unidades (a menos que tuviera unidades Ultrium 4) porque 10 TB = 410 discos blueray de una sola capa.
Allen
99
Me acabo de dar cuenta de que escribí 11Mbps, sin embargo, lo que realmente quería decir era 11MB / s. Supongo que esto hace una gran diferencia, mis cálculos tienen alrededor de 11-14 días aproximadamente ... ¿es correcto?
Paul Hinett
18
Todavía creo que enviar un supervisor con la copia de seguridad de 10 TB mientras el disco oficial todavía está funcionando, una vez que se realiza la configuración, puede almorzar un rsync para actualizar el nuevo servidor para cualquier cambio. Tendría su máquina en funcionamiento en aproximadamente un día.
Loïc Faure-Lacroix
26

Diría que rsync, a 11 MB / s, mirará entre 10 y 14 días e incluso si se interrumpe, rsync comenzará fácilmente donde se detuvo la última vez.

A 11 Mbps, enviaría los discos duros como se sugirió anteriormente :)

Lucas Kauffman
fuente
1
Su estimación difiere significativamente de lo que otros han publicado (y no sé quién está en lo correcto). ¿Puede proporcionar su metodología para llegar a esas cifras?
John Gardeniers
99
La diferencia surge de la OP que representa incorrectamente 11 Mbps cuando en realidad se refería a 11 MBps, que es 8 veces más rápido. Por cierto, reiniciar un rsync de 10 TB en el caso de una interrupción probablemente llevará un tiempo, ¿no? ¿Horas o más?
Frank Farmer el
@FrankFarmer: no me preocuparía por el reinicio de rsync; Mantengo una copia externa de ~ 20 TB a través de una línea inalámbrica de 30 Mbps, y el reinicio está en el rango de segundos. la copia inicial tardó un par de semanas, pero la actualización nocturna suele ser de un par de horas.
Javier
@FrankFarmer - rsync parece escalar muy bien. Tengo un ~ 2TB sobre una línea ADSL1 rural que se inicializó con sneakernet, pero tarda ~ 5 minutos en sincronizar todas las noches si nada ha cambiado.
Flexo
66
El tiempo de reinicio de rsync se escala con el número de archivos (principalmente desde el stattiempo, en mi experiencia), no con los datos totales. No esperaría una espera significativa (varios minutos como máximo). Aunque mi experiencia con rsync alcanza un poco menos de 5 TB.
derobert
15

Rsync por supuesto.

Al menos puede continuar en cualquier momento después de un descanso, y es sin ningún dolor.

Korjavin Ivan
fuente
77
Más de 3 meses para copiar al 100% de utilización. Lo sentimos, pero esa es una forma terrible de transferir esa cantidad de datos.
Chris S
Tengo que estar de acuerdo con @ChrisS, usar rsyncsolo para copiar archivos grandes no es eficiente. Para mis cosas terminé usando tarover netcato sshpara la transferencia inicial. Es mucho más rápido y comienza a transferirse de inmediato, mientras rsyncque primero escaneará todos los archivos, lo que lleva tiempo. Si esto se interrumpe, aún puede usarlo rsyncdespués. De hecho, hago esto a veces después de tartodos modos para garantizar que todos los permisos, archivos de socket, etc. sean correctos.
Martin Scharrer el
1
Después de que el OP corrigió que tiene ~ 100Mb de conexión, no 11Mb, rsync tiene mucho más sentido. +1 para el primero en mencionarlo.
Chris S
12

Nunca subestimes el ancho de banda de una camioneta llena de cintas

- Trad.

En su caso, discos o cintas enviados por mensajería, pero el principio aún se aplica. Si no le preocupa la latencia, será mucho más barato que el ancho de banda de la red para transferir 10 TB de datos en un período de tiempo razonable.

Preocupado por TunbridgeWells
fuente
Jeff Atwood corrió los números en uno de sus viejos mensajes Codificación de terror .. codinghorror.com/blog/2007/02/the-economics-of-bandwidth.html
tardate
10

Deberías usar rsync. Será comprimir los datos y de-duplicación antes de enviarlo. También puede reanudar transferencias parciales, lo cual es muy importante para cualquier transferencia grande.

Es probable que no transfiera 10 TB; si se trata de registros y texto, y podría ser inferior a 1 TB; quizás muy por debajo de 1 TB.

Hay herramientas que hacen un mejor trabajo de compresión que rsync y probablemente encuentren más coincidencias. Podrías usar lrzip, etc.

Hay tipos específicos de datos que no se comprimen bien y no contienen duplicados literales, por ejemplo, videos y otros medios. En esos casos, FTP y rsync están haciendo el mismo esfuerzo.

Será
fuente
3
¿RSync deduplica datos? Creo que solo hace esto a nivel de archivo, lo que significa que la deduplicación es en su mayoría inútil en este caso.
devicenull
6

Sé que esto ya está aceptado, pero ¿ha considerado llevar sus discos a un centro de datos / proveedor / host donde pueda obtener más ancho de banda? Probablemente le costará algo de dinero, pero copiar 10240 Gb en discos de respaldo y enviarlos también costará tiempo y dinero (2 x dinero).

También se asegurará de que sus discos no se rompan en el transporte.

Asken
fuente
¿En qué se diferencia esta respuesta de la respuesta aceptada?
Chris S
2
@ Chris Esta respuesta sugiere transportar los discos a una tubería más grande en el mismo continente.
Alex Jasmin
5

11 Mbps? Esto es una limitación que tienes aquí. En su situación, simplemente:

  • Clonar los datos
  • Comprimirlo
  • Alquile servidores en ambos extremos con al menos 10 veces más ancho de banda (en los mismos centros de datos o en su extremo en un centro de datos cerca de usted).
  • Transfiere los archivos
  • Aplicar los datos al nuevo servidor.

Si realmente no tiene una solución para aumentar el ancho de banda ... Entonces el envío de una unidad física será mucho más rápido.

Desde mi dolorosa experiencia, los discos duros tienden a romperse en el correo ... Las unidades flash USB son una solución mucho mejor para las transferencias frecuentes de datos. En su caso, requeriría algunos de ellos :) Envíe 2 copias de sus datos en múltiples discos duros.

Teniendo en cuenta la cantidad de datos que tiene, también podría enviar unidades desde una matriz RAID 5 o RAID 6 si tiene el mismo hardware / software en el otro lado para conectar sus unidades. Pero en ese caso recuerde marcar el orden de sus unidades y sus números de serie para que cuando se reconfiguran no se mezclen.

Coyote
fuente
1
lo siento, el 11Mbps era un tipo incorrecto, es 11MB / s ... mencioné en uno de los comentarios anteriores.
Paul Hinett
4

Si bien tengo que estar de acuerdo con la respuesta "enviarlo usando discos duros" en este caso, aquí tengo una solución de copia que uso cuando tengo que copiar grandes cantidades de archivos por primera vez:

Si bien rsynces bueno mantener sincronizados dos almacenamientos de datos, presenta una sobrecarga innecesaria para la transferencia inicial. Me imaginé que la forma más rápida es hacia tardónde se canaliza netcat. En el sitio receptor también puede usar netcaten modo de escucha que canaliza los datos entrantes a una extracción tar. El beneficio es que tarcomienza a enviarse de inmediato y lo netcatenvía como un flujo TCP simple sin sobrecarga adicional de protocolo de nivel superior. Esto debería ser lo más rápido posible. Sin embargo, no es simple reiniciar una transferencia interrumpida en la última posición.

También es posible comprimir fácilmente los datos para la transferencia utilizando las taropciones correctas o agregar una herramienta de compresión en las tuberías. Tenga en cuenta que netcatenvía la fecha sin cifrar. En los casos en que esto no sea una opción, sshse puede usar una conexión encriptada ( tar <options> | ssh <target> -c 'tar -x <options>').

Si se transfieren todos los datos, se rsyncpuede utilizar para garantizar que todos los archivos que se actualizaron mientras tanto se sincronizan. Además, el IIRC tarno crea sockets que se perderán de lo contrario, pero de todos modos no se usan realmente para datos del centro de datos.

Martin Scharrer
fuente
La desventaja es que no tolera las interrupciones
Joel Coel
3

¿Has considerado IPoAC ?

Una sola paloma puede transportar decenas de gigabytes de datos en alrededor de una hora, lo que, en promedio, se compara de manera muy favorable con los estándares actuales de ADSL, incluso cuando se consideran unidades perdidas.

wim
fuente
21
Las palomas sufrirían pérdida de señal a la distancia descrita por el OP.
Roy Tinker
@RoyTinker Cleared IPoAC debe implementarse mediante un proceso de ventanas.
JamesBarnett
3

Nuevamente, la primera sugerencia es enviar las unidades.

La segunda sugerencia es usar rsync para rsyncd, no sobre SSH. He intentado muchas cosas y suele ser la más rápida. Recuerde activar la compresión. Además, observe aumentar o disminuir el tamaño del búfer rsync para obtener la velocidad de transferencia óptima. También puede ayudar a aumentar el tamaño de su MTU . Sin embargo, esto solo ayuda si los enrutadores en ruta no fragmentan sus paquetes. Hay formas de determinar si lo hacen.

Lamentablemente, no hay una configuración que siempre sea la mejor. Tendrás que experimentar para descubrir qué funciona mejor en tu situación.

sjbotha
fuente
2

Usted mencionó que los servidores ejecutan Windows 2008. ¿ Sería adecuado Microsoft DFS ? Hay algo de magia en el extremo inferior que intenta obtener el mayor ancho de banda posible de la conexión, y también tiene compresión y deduplicación (IIRC).

Eso sí, discos duros, DVD o BluRays serían más rápidos ... Mi cálculo es de 11 días con los 11 MB / s completos ...

TiernanO
fuente
1

Puedes usar un torrent para esto.

Crea un torrent privado en un extremo y usa el cliente en el otro.

Si bien existe un cifrado, debe verificar sus requisitos.

Dragos
fuente
1
Una relación de torrente 1 a 1 no es mejor que una transferencia de archivos 1 a 1. Si hay una tubería limitada entre los dos sitios, necesita sembradoras múltiples en tuberías diferentes, idealmente distribuidas geográficamente.
Jeremy
@Jeremy: no es mejor ni peor en términos de rendimiento. Puede ser mejor en términos de confiabilidad (pausa / reanudación fácil), que para este tamaño xfer podría ser importante
Joel Coel