¿Cómo hacer una copia de seguridad de más de 20 TB de datos?

86

Tenemos un servidor NAS en la empresa para la que trabajo que se está utilizando para almacenar sesiones de fotografía. Cada sesión es de aproximadamente 100 gb. En los últimos años, este servidor ha acumulado más de 10 TB de datos, y estamos aumentando la cantidad de sesiones de fotos exponencialmente. Estimo que para fines del próximo año tendremos más de 20 TB almacenados en este NAS. Actualmente estamos respaldando este servidor en cinta usando cintas LTO-5 con Symantec BackupExec. Dado que el tamaño de este servidor ha crecido, las copias de seguridad completas de este servidor no se completan de la noche a la mañana. ¿Alguien tiene alguna sugerencia sobre cómo hacer una copia de seguridad de esta cantidad de datos? ¿Deberíamos respaldarlo en cinta? ¿Hay alguna otra opción que pueda ser mejor?

Jesus Fidalgo
fuente
36
¿Por qué realiza copias de seguridad completas todas las noches? ¿Por qué no ejecutar una copia de seguridad completa una vez por semana y ejecutar copias de seguridad incrementales los 6 días restantes de la semana?
joeqwerty
99
Eso es lo que estamos haciendo, lo siento, no mencioné que ... el semanario completo es el que no se completa.
Jesús Fidalgo
66
¿Un completo semanal necesita completarse durante la noche? No es raro que los semanarios tomen más de 24 horas para un conjunto de datos suficientemente grande.
Stefan Lasiewski
2
¿Qué tipo de NAS estás usando?
ewwhite
66
¿Estás seguro de que el aumento de las sesiones de fotos es exponencial ?
gerrit

Respuestas:

114

Debe dar un paso atrás y dejar de pensar "Tengo 20 TB en mi NAS, ¡necesito hacer una copia de seguridad!" y desarrolle una estrategia de almacenamiento que tenga en cuenta la naturaleza de sus datos:

  • ¿De dónde viene y cuántos datos nuevos está obteniendo? (tienes esto en tu pregunta)
  • ¿Cómo se usan los datos una vez que los tiene? ¿Las personas están editando las imágenes? ¿Guarda los originales y genera versiones editadas?
  • ¿Cuánto tiempo necesita conservar todos los datos? ¿La gente todavía está haciendo cambios en las imágenes de hace 2 años?

Dependiendo de las respuestas a las dos últimas preguntas, probablemente necesite más de un Sistema de archivo que un sistema de copia de seguridad radicalmente diferente.

No es necesario hacer una copia de seguridad de los datos estáticos (por ejemplo, imágenes de 2 años que conserva "por si acaso") todas las noches, o incluso todas las semanas, es necesario archivarlas. Lo que realmente hace puede ser más complejo, pero conceptualmente, todas las imágenes antiguas se pueden escribir en cinta (¡copias múltiples!) Y no hacer más copias de seguridad.

Según sus comentarios, algunas ideas adicionales:

  • Como mantiene intactos los originales de cada sesión y trabaja en una copia, y suponiendo que al menos algunas de las imágenes originales son falsas, es posible que pueda reducir a la mitad la cantidad de datos que necesita copia de seguridad.

  • Si aún no puede finalizar una copia de seguridad completa dentro de la ventana de tiempo que tenga, una forma común de acelerar las cosas es hacer primero una copia de seguridad de disco a disco y luego copiar el conjunto de copia de seguridad en cinta.

Ward
fuente
1
La sesión original se almacena intacta, luego se usa otra copia de la sesión de fotos para editar. Es posible que los datos deban conservarse unos 2 años.
Jesús Fidalgo
20
+1 Bien dicho. Me sorprende cómo la diferencia entre Copia de seguridad y Archivo es, en general, poco entendida. Hago copias de seguridad completas e incrementales de mi sistema y datos efímeros, como correo electrónico y documentos, pero archivo mi fotografía (1.2TB y creciendo :-). Ojalá pudiera dar otro +1 para la sugerencia de disco a disco también.
Ex Umbris
8
+1 Apuesto a que el 80% de los datos en el NAS nunca se usa más de una vez.
Stefan Lasiewski
+1 La mejor opción aquí es realizar transferencias diarias o incluso por hora de disco a disco para capturar cambios y luego enviar las copias de seguridad completas o incrementales a un proveedor / ubicación de archivo o fuera del sitio de forma semanal o semisemanal. Solíamos tomar copias de seguridad delta de nuestros archivos SQL cada 15 minutos para reducir la cantidad de pérdida de datos en un escenario de recuperación ante desastres.
Brent Pabst
12

Tienes dos opciones:

Opción 1:

  1. Compre otro NAS
  2. Brinde a sus usuarios acceso de RO a new_NAS
  3. Mover todos los archivos de más de 2 años a new_NAS
  4. Siga haciendo copias de seguridad de old_NAS como de costumbre
  5. Cada 6 meses mueva archivos de más de 2 años a new_NAS

Opcion 2:

  1. Compre otro NAS
  2. Ejecutar rsynccada hora: old_NAS -> new_NAS

    o mejor use algo como rdiff-backup que hace rsync + mantiene los deltas con los cambios de archivos (puede restaurar versiones anteriores de los archivos)

    rdiff-backup  user1@old_NAS::/source-dir    user2@new_NAS::/dest-dir
    
  3. Cada 6 meses, limpie los archivos antiguos que ejecutan algo como:

    rdiff-backup --remove-older-than 2Y    old_NAS::/dest-dir
    
chorro
fuente
2

¿Por qué sus copias de seguridad tienen que completarse de la noche a la mañana? Rendimiento del servidor de archivos? Es posible que pueda restringir el ancho de banda de su software de respaldo para limitar el impacto durante el día. O bien, dedique una interfaz en su NAS para hablar con la unidad de cinta para limitar el impacto en otro tráfico.

¿Se pueden realizar descargas completas los fines de semana y solo hacer incrementos durante la semana? Si el problema es cambiar las cintas el fin de semana cuando no hay nadie cerca, una biblioteca de cintas / cambiador automático barato cuesta mucho menos que pagarle a alguien para que cambie las cintas.

¿Puede segmentar sus datos en múltiples grupos que sean lo suficientemente pequeños para completar dentro de su ventana de respaldo?

Tenemos alrededor de 50 TB de datos en nuestro NAS y lleva más de una semana obtener un volcado completo de todo usando 2 unidades de cinta (un volumen toma casi una semana en sí porque contiene muchos archivos pequeños). Lo que hacemos es replicar nuestros datos a un segundo NAS. Nuestro NAS secundario está en el sitio (pero en un centro de datos diferente del primario), por lo que todavía ponemos los datos en cinta para realizar copias de seguridad fuera del sitio. Ejecutamos copias de seguridad desde ese NAS secundario para que las copias de seguridad no ralenticen a nadie.

Si puede colocar su NAS secundario lo suficientemente lejos, entonces puede ser su copia de seguridad, sin necesidad de cintas.

Johnny
fuente
1

Solo tengo dudas sobre el tamaño de cada sesión de disparo, ¿es realmente de 100 gb / sesión? ¿Cuántas sesiones realiza su empresa cada mes?

Dado que en su mayoría está almacenando sesiones antiguas que no se usarán con frecuencia, etc., y que probablemente no necesiten recuperar esa información con tanta frecuencia, le sugiero que use los servicios de alguna compañía para encargarse de esa tarea. .

Solo por ejemplo, almacenar esos 20TB usando un servicio en línea como Amazon Glacier costaría un poco más de $ 200 / mes. Si necesita recuperar esos archivos con frecuencia, o incluso recuperarlos en su totalidad, se produciría una restricción de tiempo / costo. Si solo almacena esas cosas "para asegurarse de que estén almacenadas", tal vez usar un tercero podría facilitarle la vida (e incluso más barato que comprar otro NAS, cintas, etc.)

woliveirajr
fuente
1
100 GB por sesión me suena un poco alto, pero no es irrazonable. Comúnmente teníamos más de 32 GB de sesión donde solía trabajar, y nuestro equipo era de nivel medio.
Tom Marthenal
1

full backups of this server are not completing overnight
Entonces intente copias de seguridad incrementales? Una copia de seguridad completa cada xx días, incremental el resto.

Los discos duros son económicos, más rápidos que las cintas y se pueden usar para hacer copias de seguridad.

También hay buenas alternativas para las copias de seguridad en la nube ahora, por lo que no es necesario seguir agregando más cintas y más rápidas.
Por ejemplo:

Tedd Hansen
fuente
Mire los comentarios: son los completos semanales que no se están completando. Además, las copias de seguridad en la nube para 20 TB de datos ... no es una buena idea. La opción "barata" de Amazon Glacier costará ~ 2500 / año, y recuperar todos esos datos costará ~ $ 36,000.
HopelessN00b
Eso no es realmente mucho.
Sirex
1
Supongo que es una cuestión de opinión si $ 2400 / año es mucho para 20 TB de almacenamiento relativamente seguro y totalmente libre de mantenimiento. Sin consumo de energía, sin enfriamiento, sin fallas de hardware, sin SLA, no ocupa espacio en el rack. Y como con la mayoría de los sistemas, debe esperar alrededor de 0 operaciones de recuperación completa. Y si necesita una recuperación, el precio es más como $ 1800 que $ 36000 (no estoy seguro de dónde obtuvo ese número).
Tedd Hansen
Para el glaciar, los $ 36K están bastante cerca. Lo calculo aproximadamente como $ 42K para costos de recuperación en 20TB. Sin embargo, todavía no es mucho. El ancho de banda es más un problema.
Sirex
1

Creo que la mejor solución para esto es lo que hacemos con nuestros datos de nómina, lo que debería requerir un mínimo esfuerzo para su implementación.

  • Inicialmente, se guarda con el resto de los datos del servidor que se respaldan diariamente. Nuestro período de retención en esas copias de seguridad es de 13 meses.

  • Una vez que ya no esperamos que los datos deban modificarse (dos períodos de pago más tarde, IIRC), los datos se guardan (a través de un script) en un volumen de archivo que se excluye de las copias de seguridad regulares.

  • El volumen del archivo se copia en cinta anualmente, y las cintas se envían a Cintas para su almacenamiento indefinido.

Esto nos permite tener un acceso fácil y en línea a esos datos que no cambian (por lo que no tenemos que llamar en una cinta cada vez que un contador quiera ver algo), mientras mantenemos archivos de datos indefinidos fuera del sitio que es posible que necesitemos conservar para siempre. , y sin destruir nuestro sistema de respaldo. Parece que el mismo tipo de configuración podría funcionar para usted, aunque es posible que desee ajustar la cantidad de datos que mantiene en línea, dependiendo de sus necesidades para acceder a estos datos de manera oportuna: 20 TB de almacenamiento de nivel empresarial es mucho más costoso que archivarlo en dos o tres conjuntos de cintas LTO5 que almacena en bóvedas externas.

HopelessN00b
fuente
0

Quizás pueda construir su propio Backblaze Pod : 135Tb por 7384 $
Haga clic aquí para obtener más información: Información de construcción del Backblaze Pod

Puedes comprar las piezas necesarias y construirlas tú mismo.

Tal vez pueda construir 3 de ellos y mantener 2 en el sitio y 1 fuera del sitio. Luego puede usar un pod como "datos en línea", el segundo pod en el sitio como respaldo del primer pod y el tercer pod fuera del sitio como respaldo de emergencia fuera del sitio.

Con 135Tb de almacenamiento para cada pod, incluso puede pensar en mantener un historial del cambio ...
135Tb / 20Tb = 19 copia de seguridad completa .
Alternativamente, puede mantener 10 copias de seguridad completas más una cantidad ridícula de copias de seguridad diferenciales.

Naturalmente, si desea una copia de seguridad externa, necesitará algún tipo de gran ancho de banda ... :-)

Max
fuente
55
Si sus datos y su trabajo son importantes para usted, no debe intentar construir su propio módulo de backblaze desde cero. Parece una buena idea, hasta que te das cuenta de que estás poniendo todos tus huevos en una canasta realmente grande. Peor aún, esa canasta no ha sido probada como un todo integrado a fondo. La salsa secreta de Backblaze es la replicación de software en muchos pods, lo que permite que los pods completos fallen sin problemas. En cambio, recomendaría un servidor de almacenamiento supermicro, centos, xfs y rdiff-backup.
bugaboo
-1

Mi compañero de trabajo compró un NAS de 8 discos Synology. Ejecuta un RAID híbrido. Compró ocho Barracuda Seagate de 3 TB de NewEgg hace unas semanas por $ 89 cada una. Puede realizar una réplica rsync del NAS de producción a este nuevo NAS a través de GigaBit. Como solo está transfiriendo las diferencias, la transferencia tomará un tiempo más corto. Luego puede usar el NAS de respaldo para realizar tareas completas o incrementales. El costo para usted sería de menos de $ 2000 para un NAS de respaldo.

Dom
fuente