¿Cómo hace una copia de seguridad de un servidor de almacenamiento?

14

Estoy buscando implementar un servidor de almacenamiento muy grande para usarlo como NAS en vivo para varios otros servidores (todos basados ​​en Linux).

Por muy grande, quiero decir entre 4TB y 20TB de espacio utilizable (aunque es poco probable que lo hagamos en 20TB).

El servidor de almacenamiento será RAID 10 para la seguridad y el rendimiento de los datos, pero aún necesitaremos una solución de respaldo que incluya el respaldo fuera del sitio.

Mi pregunta es: ¿cómo hacer una copia de seguridad de esa cantidad de datos?

No es que solo pueda conectar un disco duro portátil y transferir los archivos. Actualmente no tenemos otros dispositivos con tanto espacio de almacenamiento.

¿Necesito presupuesto para un segundo servidor de almacenamiento externo o hay una solución mejor?

Andrew Ensley
fuente
55
Dejaré mi comentario habitual sobre el respaldo de estar desconectado. Me pone realmente nervioso que un sistema de respaldo esté "en vivo y en línea" todo el tiempo. Si un atacante puede acceder a su sistema de producción y sus copias de seguridad, entonces pueden destruir sus copias de seguridad inmediatamente después de que terminen de destruir su sistema de producción.
Evan Anderson
@Evan Prefiero tener ambas, la restauración desde una cinta puede llevar muchas horas, pero la restauración desde un disco local o conectado directamente se puede hacer en minutos.
Tom O'Connor
@Tim O'Connor: D2D2T es genial cuando puedes conseguirlo. Tenga en cuenta que restaurar elementos individuales del disco o la cinta puede ser muy rápido. La copia de seguridad basada en disco tiene la reputación de ser rápida de restaurar, pero la mayoría de la gente piensa "acceder a los datos directamente desde los medios B2D" y no "restaurarla" cuando dicen eso. Si tiene que restaurar un par de TB de datos de un sistema de respaldo basado en disco para, por ejemplo, un SAN de reemplazo después de que el suyo se quemó en un incendio, no va a ser "minutos" para que se copien esos datos. El disco y la cinta de gama alta, en términos de velocidad de transferencia de datos, son muy similares.
Evan Anderson

Respuestas:

13

Hay muchas formas de manejar datos de ese tamaño. Mucho depende de su entorno y de cuánto dinero está dispuesto a gastar. En general, hay algunas estrategias generales para "quitar los datos del servidor":

  • A través de Ethernet Como dice en la caja, los datos se transmiten a Some Where Else para su manejo. 20 TB tardarán mucho en copiar más de 1 GbE, pero se puede hacer. El hardware puede ayudar (como enlaces de 10 GbE o, en algunos casos, enlaces NIC).
  • Sobre el subsistema de almacenamiento Si está en Fibre Channel, envíelo a otro dispositivo en la red FC. Si tiene SAS, envíelo a un dispositivo conectado a SAS. Generalmente más rápido que Ethernet.
  • Envíelo a otra matriz de discos Envíelo a otro trozo de almacenamiento conectado al mismo servidor.

Esa es la vista de 100 km. Una vez que comienzas a hacer zoom, las cosas se fragmentan mucho más. Como ya se mencionó, LTO5 es una tecnología de cinta específica que está diseñada para este tipo de cargas de alta densidad. Otra matriz de almacenamiento idéntica es un buen objetivo, especialmente si puede usar algo como GlusterFS o DRBD para obtener los datos allí. Además, si necesita una rotación de respaldo o simplemente la capacidad de seguir ejecutándose en caso de que falle la matriz, esto afectará lo que haya colocado.

Una vez que se haya decidido por un método de visualización de 100Km, entrar en el software será la próxima gran tarea. Los factores que influyen en esto son lo que puede instalar en su servidor de almacenamiento en primer lugar (si es una NetApp, eso es una cosa, un servidor Linux con un montón de almacenamiento es otra cosa completamente diferente, como es un servidor de Windows con un montón de almacenamiento) , qué hardware elige (por ejemplo, no todos los paquetes de respaldo de FOSS manejan bien las bibliotecas de cintas) y qué tipo de retención de respaldo necesita.

Realmente necesita averiguar qué tipo de recuperación de desastres desea. La replicación en vivo simple es más fácil, pero no le permite restaurar desde la semana pasada solo ahora. Si la capacidad de restaurar desde la semana pasada es importante para usted, entonces necesita diseñar para ese tipo de cosas. Por ley (en los EE. UU. Y en otros lugares), algunos datos deben conservarse durante más de 7 años.

La replicación simple es la más fácil de hacer. Esto es lo que DRBD está diseñado para hacer. Una vez que se realiza la copia inicial, solo envía cambios. Los factores complicados aquí son la localidad de la red, si su segunda matriz no está cerca de la DRBD primaria puede no ser factible. Necesitará un segundo servidor de almacenamiento con al menos tanto espacio de almacenamiento como el primero.


Acerca de la copia de seguridad en cinta ...

LTO5 puede contener 1,5 TB de datos sin compresión. Alimentar a estos monstruos requiere una conexión en red muy rápida, que es Fibre Channel o 6Gb SAS. Dado que necesita hacer una copia de seguridad de más de 1.5TB en un golpe, debe buscar en los cargadores automáticos (aquí hay un ejemplo: enlace , un cargador automático de 24 unidades y 1 unidad de HP). Con el software que los admite, manejarán el cambio de cintas a mitad de la copia de seguridad por usted. Son grandiosos. Todavía tendrá que sacar las cintas para enviarlas fuera del sitio, pero es mucho mejor que quedarse toda la noche para cargar las cintas usted mismo cuando la copia de seguridad las requiera.

Si la cinta le da el heebiegeebies ' heredado, ew ', una Biblioteca de cintas virtuales puede ser más rápida (como esta de Quantum: enlace ). Estos pretenden ser bibliotecas de cintas para hacer una copia de seguridad del software mientras que en realidad almacenan cosas en el disco con técnicas robustas (esperas) de deduplicación. Los más elegantes incluso copiarán cintas virtuales en cintas reales para usted, si le gusta ese tipo de cosas, lo que puede ser muy útil para rotaciones fuera del sitio.


Si no quiere perder el tiempo incluso con cintas virtuales, pero aún desea hacer copias de seguridad directas en disco, necesitará una matriz de almacenamiento del tamaño suficiente para manejar esos 20 TB, además de la cantidad de datos de cambio de red que desee para mantener Los diferentes paquetes de respaldo manejan esto de manera diferente. Algunas tecnologías de desduplicación son realmente buenas, otras son hacky kludges. Personalmente, no conozco el estado de los paquetes de software de respaldo FOSS en esta área (he oído hablar de Bacula), pero pueden ser suficientes. Muchos paquetes de copias de seguridad comerciales tienen agentes locales que instala en servidores para realizar copias de seguridad con el fin de aumentar el rendimiento, que tiene muchos méritos.

sysadmin1138
fuente
Gracias por la respuesta larga y pensada. Me has dado mucho para reflexionar :-p
Andrew Ensley
9

LTO-5 jukebox? necesitaría en algún lugar entre tres y 15 cintas para respaldar esa matriz, que no es una cantidad locamente grande. El jukebox se encargará de cambiar las cintas por usted, y un buen software de copia de seguridad (p. Ej., Bacula) realizará un seguimiento de los archivos que hay en cada cinta.

También querrá considerar el tiempo requerido para hacer una copia de seguridad de un sistema de archivos tan grande, ya que es muy probable que el FS cambie durante ese período. Para obtener los mejores resultados, un sistema de archivos que admita instantáneas sería muy útil, por lo que puede tomar una instantánea y realizar copias de seguridad completas o incrementales en lugar de hacerlo en el sistema de archivos en vivo.

MadHatter
fuente
1
No estoy familiarizado con los sistemas de cintas. Supongo que no hay forma de hacer copias de seguridad incrementales. Además, ¿no tomaría varias horas e implicaría cambiar manualmente las unidades de cinta una tras otra? Eso no sería lo ideal porque solo tendría ese tipo de tiempo una vez al mes, y realmente no queremos tener un mes de datos en riesgo. ¿Me estoy perdiendo algo, o estos son solo inconvenientes / riesgos / limitaciones aceptados de los sistemas de copia de seguridad en cinta?
Andrew Ensley
44
Los modernos sistemas de copia de seguridad en cinta son altamente automatizados y robóticos :)
phoebus
3
Sí, las copias de seguridad en cinta normalmente permiten copias de seguridad incrementales. Una buena estrategia de respaldo es hacer respaldos completos (largos, lentos, muchas cintas) mensualmente o cada dos años, y hacer respaldos diarios incrementales o diferenciales intermedios.
Brent
Los robots de cinta tienen un precio razonable y contienen muchas cintas. En cuanto a las copias de seguridad, ¿por qué no habría una manera de hacer incrementales? Finalmente, la mayoría de las personas activan la copia de seguridad para que se ejecute durante las horas libres. Si no los tiene, esa es una parte importante de la especificación.
Slartibartfast
Sí, realmente no tenemos horas libres. Tenemos horas en las que sería más aceptable que el sistema no esté disponible (como a las 4 a.m. del sábado por la mañana), pero los sistemas afectados serán utilizados las 24 horas del día, los 7 días de la semana por potencialmente cientos de usuarios.
Andrew Ensley
5

Probablemente debería considerar hacer una copia de seguridad en el disco , ya que la cinta llevará mucho tiempo y, al ser un acceso secuencial, las restauraciones tomarán una eternidad.

Definitivamente aproveche las copias de seguridad diferenciales o incrementales , solo copias de seguridad de los cambios, en cualquier frecuencia que tenga sentido para usted.

Probablemente la solución ideal sería tener un segundo servidor de tamaño similar en otra ubicación , donde se envían copias de seguridad incrementales regularmente, y eso podría cambiarse rápidamente si el servidor principal alguna vez muere. Sin embargo, otra opción sería usar unidades extraíbles en el lugar, que luego se sacan fuera del sitio para su almacenamiento.

Cuando se trata con esa cantidad de datos, también tiene sentido dividir sus copias de seguridad en trabajos de copia de seguridad más pequeños, y si no se pueden hacer copias de seguridad todos los días, escalone sus copias de seguridad para que la copia de seguridad A se realice un día, y establecer B el siguiente.

Siempre piense en el procedimiento de restauración . Nos picaron una vez cuando tuvimos que restaurar un archivo de un trabajo de copia de seguridad de varios cientos de conciertos, lo que tomó mucha memoria y mucho tiempo para reconstruir el índice de copia de seguridad y restaurarlo. Al final, no pudimos completarlo en un día, ¡y tuvimos que construir un servidor de restauración dedicado para permitir que nuestro servidor de respaldo principal continúe con sus trabajos nocturnos!

--adicional--

También debe estar pensando en las tecnologías de deduplicación , que pueden ahorrar grandes cantidades de espacio al no realizar copias de seguridad de la misma información varias veces, para múltiples usuarios. Muchas soluciones de respaldo o sistemas de archivos ofrecen deduplicación como parte de su funcionalidad.

Brent
fuente
+1 para thinking about the restore procedure. ¡Amén!
Steven Monday
Un montón de buenos consejos. Gracias. Tengo mucho en que pensar.
Andrew Ensley
2
Me gustaría votar, pero no veo la cinta mencionada. Es muy probable que la cinta sea una parte vital de un régimen de respaldo para esa cantidad de datos si se necesita una ventana de retención significativa combinada con almacenamiento fuera del sitio. El costo de los cartuchos LTO-5 para el almacenamiento fuera del sitio a largo plazo, en comparación con las unidades de disco duro extraíbles, los hace muy atractivos. Los cartuchos de cinta también están diseñados para el almacenamiento de archivos, mientras que las unidades de disco duro extraíbles generalmente no lo son.
Evan Anderson
@Evan: Para ser justos, mencionó cintas en la primera oración.
Andrew Ensley
2

Primero, enumere los riesgos contra los que está protegiendo. Algunos riesgos comunes:

  • Desastre: Algo muy desafortunado le sucede a todo su sitio.
  • Errores humanos (este es el que ocurre _todos_la_hora_):
    • Alguien decide ejercer la capacidad de "intercambio en caliente" de su servidor de almacenamiento de una manera no prevista por el fabricante.
    • Alguien ejecuta un proceso que corrompe silenciosamente los datos, que se respaldan de manera confiable durante un par de meses antes de que se note el problema.
    • Alguien elimina el importante informe que se debe entregar en una hora y que vale miles de dólares.

Luego evalúe el costo de las diversas soluciones para evitar riesgos, por ejemplo:

  • Copia de seguridad en línea, fuera del sitio (espejo remoto): a salvo de desastres, algunos (pero no todos) errores humanos (todavía está en línea).
  • Almacenamiento fuera de línea (cintas): a salvo de desastres, difícil de recuperar datos rápidamente.
  • Copia de seguridad en línea en el sitio (espejo): a salvo de algún error humano, alguna falla de hardware, vulnerable a desastres.
  • Copia de seguridad fuera de línea en el sitio (cintas en cambiador de cinta): a salvo de la mayoría de los errores humanos, la mayoría de las fallas de hardware.

Luego evalúe las estrategias de rotación (cuánto tiempo atrás desea poder recuperar, cuántos datos puede permitirse perder).

Luego, elija lo que valen sus datos.

Slartibartfast
fuente
Bonito desglose. Ya he evaluado esto en su mayor parte y he llegado a la opción de copia de seguridad en línea fuera del sitio. El propósito de la copia de seguridad es principalmente proteger del desastre además del obvio error humano. El estante está ubicado a 2 millas de la costa del golfo, por lo que los huracanes son una preocupación. Solo tendremos que hacer todo lo posible para protegernos de los errores humanos con frecuentes controles de integridad. Su respuesta me ayudó a sentirme mejor con esta conclusión. Gracias.
Andrew Ensley
Me alegro de poder ayudar. Algunos comentarios con respecto a la solución elegida: Esto puede ser evidente, pero el sitio de respaldo probablemente debería estar en otro estado o en un lugar bien protegido de los huracanes a los que está sujeto. Puede mitigar los problemas de corrupción si tiene una "cola" larga (copias de seguridad de una amplia gama de fechas en el pasado). Con una copia de seguridad en línea, también debe considerar el peligro de eliminar accidentalmente los datos en lugar de restaurarlos. Finalmente, siempre pruebe su proceso de restauración.
Slartibartfast
2

Tengo un cliente con dos sistemas similares de 12 TB en dos edificios diferentes, conectados a 1 GB. Uno es el sistema de producción; se realiza una copia de seguridad incremental (con instantáneas diarias) a la otra con la gran utilidad rdiff-backup . rdiff-backup debe estar disponible en su repositorio de distribución estándar.

wazoox
fuente
1

Copia de seguridad en línea, fuera del sitio (espejo remoto)

use rsync a través de ssh (solo cambios): la primera copia de seguridad debe realizarse localmente, pero después de esa copia de seguridad será muy fácil dependiendo de los cambios

si necesita mantener versiones con cambios rdiff-backup

http://www.nongnu.org/rdiff-backup/

El sistema de archivos btrfs en Linux suena prometedor, pero aún en desarrollo pesado

chorro
fuente
Gracias por señalarme hacia rdiff. Ya uso rsync, y este parece ser el paso perfecto para eso.
Andrew Ensley
1

Eche un vistazo a su "contenido" real y con qué frecuencia cambia antes de planificar su estrategia. Muchas veces la gente simplemente graba los mismos datos una y otra vez semanalmente sin ninguna buena razón.

Las tecnologías de deduplicación de algunos proveedores pueden permitir que las instantáneas lo salven de las restauraciones de archivos individuales, pero siempre necesitará protección externa.

SpacemanSpiff
fuente
El sistema será utilizado por miles, posiblemente decenas de miles de usuarios diarios que ingresan formularios y actualizan información. Estos son datos altamente dinámicos. Debería haber mencionado eso en la pregunta.
Andrew Ensley
Si fuera yo, diseñaría el sistema con suficiente capacidad de sobrecarga o instantánea para no tener que ir a las copias de seguridad reales a menos que sea un desastre.
SpacemanSpiff
Estoy de acuerdo. Como dije antes, las unidades estarán en RAID 10, por lo que estamos cubiertos en caso de falla del disco duro, y también tendré copias de seguridad / instantáneas locales. La copia de seguridad fuera del sitio es para el peor de los casos, como un meteorito golpeando la ubicación conjunta o alguien ejecutando accidentalmente rm -rf / * en el servidor de almacenamiento.
Andrew Ensley
Bueno, me refería a los gastos generales en lo que respecta a la capacidad. RAID10 es inteligente para la mejor redundancia, por supuesto, pero tomaría RAID6 si el rendimiento no fuera un requisito tan importante y si pudiera usar el espacio extra para obtener más área de instantánea. Cuantas más instantáneas pueda permitirse, menos necesitará "copia de seguridad" para la restauración de archivos.
SpacemanSpiff