¿Las instantáneas + RAID cuentan como una buena solución de respaldo en el sitio?

19

Las dos razones principales que se me ocurren para tomar copias de seguridad parecen estar resueltas cuando uso instantáneas y RAID junto con btrfs. (Por RAID aquí, me refiero a RAID1 o 10)

  • Eliminación accidental de datos: las instantáneas cubren este caso
  • Falla de una unidad y putrefacción
    • Falla completa: RAID cubre este caso
    • Unidad que devuelve datos incorrectos: la función de corrección de errores de RAID + btrfs cubre este caso

Entonces, como una solución de respaldo en el sitio, esto parece funcionar bien, ¡y ni siquiera necesita un dispositivo de almacenamiento de datos separado para ello!

Sin embargo, he oído que tanto RAID como las instantáneas no se consideran copias de seguridad adecuadas, por lo que me pregunto si me he perdido algo.

Además de que btrfs todavía no es una tecnología madura, ¿puedes pensar en algo que me haya perdido? ¿O es correcto mi pensamiento y esta es una solución de respaldo válida en el sitio?

小 太郎
fuente
2
Hacemos lo mismo que usted: RAID 5 con Shadow Copy; sin embargo, también tenemos dos discos duros USB fuera del sitio que respaldan usando Robocopy todas las noches (gire los discos dos veces por semana para que uno siempre esté fuera del sitio). Esto también nos proporciona copias de seguridad para la recuperación ante desastres, pero no archivos a largo plazo , que nuestra pequeña organización realmente no necesita. Debe actualizar al menos para tener una copia de los datos fuera del sitio en su servidor, ya que si su matriz RAID muere, también perderá sus instantáneas.
Austin '' Peligro '' Powers
Si desea averiguar si es posible que una matriz RAID falle en su totalidad, golpee una con un mazo e intente recuperar sus datos. Hay toda una clase de cosas malas que pueden eliminar una caja completa sin eliminar todo el sitio. Dicho esto, si sus copias de seguridad en el sitio son solo una conveniencia que podría ahorrarle la recuperación más lenta de las copias de seguridad fuera del sitio, entonces, en principio, pueden ser tan malas como desee.
Steve Jessop
Sí, ya tenemos copias de seguridad fuera del sitio y una solución en el sitio más "tradicional". La razón por la que hice esta pregunta porque leí sobre las características de btrfs y ZFS, y me preguntaba si era adecuado como reemplazo de las copias de seguridad en el sitio.
小 太郎

Respuestas:

42

No, no es.

¿Qué sucede cuando su sistema de archivos o volumen RAID se corrompe? ¿O su servidor se prendió fuego? ¿O alguien formatea accidentalmente la matriz incorrecta?

Pierdes todos tus datos y las copias de seguridad no reales que creías tener. Es por eso que las copias de seguridad reales se encuentran en un sistema completamente diferente a los datos que está respaldando, porque las copias de seguridad protegen contra algo que le sucede al sistema en cuestión que podría causar la pérdida de datos. Mantenga sus copias de seguridad en el mismo sistema que las copias de seguridad, y la pérdida de datos en ese sistema también puede afectar sus "copias de seguridad".

HopelessN00b
fuente
¿Qué tal esta solución, ya que me encuentro con ella a menudo? ¿Las instantáneas locales + instantáneas remotas a otro servidor (in situ o externo) + RAID en ambos sistemas son un reemplazo para las copias de seguridad tradicionales?
ewwhite
55
@ewwhite Suponiendo que estén probados por restauración y que exista una copia completa de sus datos en un sistema remoto, seguro. Entonces es básicamente una copia de seguridad de disco a disco ... y me encantan las copias de seguridad de disco a disco.
HopelessN00b
11

Para la copia de seguridad en el sitio , la instantánea puede ser lo suficientemente buena, siempre que 'exporte' regularmente su instantánea a otro lugar, donde exista como datos pasivos.

Y, pruebe regularmente si su 'instantánea enviada' puede ser restaurada.

Así es como implementé una copia de seguridad rápida de algunos de mis servidores: almacenar los datos en ZFS, tomar una instantánea de ZFS, enviar el delta a otro servidor, donde se vuelve a crear todo el sistema de archivos (menos el servicio real en ejecución).

Por supuesto, la mejor copia de seguridad es siempre fuera del sitio. Por lo tanto, después de 'enviar' la (s) instantánea (s) a un sistema separado, realice una 'salida de cinta' de las instantáneas regularmente.

Entonces, en mi sistema, el servidor que recibe los deltas de instantáneas, volca regularmente todos sus grupos ZFS (incluidas las instantáneas anteriores) en cinta.

Y, por supuesto, pruebe sus salidas de cinta para asegurarse de que pueda restaurarse.

Nota: Deseará que la instantánea se realice durante la actividad del disco inactivo, y preferiblemente en coordinación con la base de datos (si existe) para garantizar la coherencia; de lo contrario, la cura podría ser peor que la enfermedad. Es por eso que la función 'instantánea instantánea' de NetApp y EMC es muy útil: pospondrán la instantánea de un LUN hasta que la base de datos que utiliza el LUN indique que es seguro llevar a cabo la instantánea.

pepoluan
fuente
¿Puedes dar más detalles sobre cómo volcar tus instantáneas ZFS en cinta?
ewwhite
@ewwhite siempre puede hacer una copia de seguridad del .zfs/snapshotsdirectorio o montar una de las instantáneas en otro lugar para hacer una salida de cinta. Por lo tanto, es una copia de seguridad separada para diferentes instantáneas.
pepoluan
Estoy haciendo esto con zvols, en realidad ... así que no tengo un directorio .zfs cden el que ingresar.
ewwhite
@ewwhite Ahh, ya veo ... en ese caso, es posible que pueda usar zfs send $SNAPSHOT_NAME > $YOUR_TAPE_DEVICE, y luego hacer un zfs receive $RESTORE_NAME < $YOUR_TAPE_DEVICE. Sin embargo, sinceramente, no tengo experiencia con copias de seguridad de zvols, aunque ...
pepoluan
8

Lo que dijo HopelessN00b. No.

Las copias de seguridad adecuadas se encuentran en un dispositivo separado del dispositivo del que se realiza la copia de seguridad. ¿Qué sucede cuando pierdes dos o más unidades? ¿Qué sucede cuando se quema la sala de servidores? ¿Qué sucede cuando alguien destruye accidentalmente su matriz?

(Alerta de anécdota: una vez escuché de alguien que tenía PXE configurado para instalar automáticamente el último Fedora. Su UPS falló. Después de un corte de energía, su servidor se reinició y se configuró para arrancar PXE y ... instaló Fedora sobre sus datos. Mi punto? Suceden cosas extrañas. Afortunadamente, tenía copias de seguridad adecuadas.)

Preferiblemente, tiene al menos tres copias de sus datos, una almacenada completamente fuera del sitio en caso de que el centro de datos se queme.

Katherine Villyard
fuente
6

Las instantáneas implementadas correctamente DEBEN ser compatibles con su almacenamiento, ya que las copias de seguridad decentes las usan como la primera etapa de la creación de un trabajo de copia de seguridad. Sin embargo, es una mala idea usar instantáneas para la copia de seguridad primaria. Razones:

1) Las instantáneas y el almacenamiento de back-end PUEDEN fallar. Por lo tanto, las copias de seguridad reales deben estar utilizando un conjunto de husillos separado o hay una gran posibilidad de perder tanto el conjunto de trabajo primario como los datos de copia de seguridad @ al mismo tiempo.

2) Las instantáneas "mastican" el espacio utilizable. Tiene sentido utilizar un almacenamiento costoso y rápido para los datos actuales y las instantáneas y copias de seguridad sin carga que son datos fríos para un almacenamiento más barato y más lento. Funciona muy bien con 1) BTW.

3) Las instantáneas generalmente ralentizan todo el proceso. La mayoría de los sistemas usan Copy-on-Write y este enfoque crea fragmentación. Redirect-on-Write son más rápidos pero comen MUCHO espacio. Muy pocos proveedores han implementado adecuadamente las instantáneas. NetApp con WAFL y Nimble Storage con CASL (no estoy afiliado con ninguno de ellos). Casi todos los demás tienen problemas. Por ejemplo, Dell Equallogic activa la actualización de la página de 15 MB (y el desperdicio) en cada byte modificado. Eso es caro.

BaronSamedi1958
fuente
6

Sí lo es. Es una manera perfecta de almacenar copias de seguridad. No se necesita nada más, diablos, incluso hacer verificaciones de integridad es solo una pérdida de tiempo.

Solo para confirmar, antes de dar más consejos ... trabajas para un competidor mío, ¿verdad? Realmente lo haces, ¿seguro? ¿No? Oh.

Lo siento, nueces. No, en absoluto. Lo siento amigo.

El problema es que está totalmente abierto a cualquier error que ocurra en (a) el sistema y (b) el nivel del sistema operativo. Básicamente solo protege contra alguien que elimina algunos datos. Agradable. ES un error frecuente.

Lo que no estás protegiendo es:

  • Un pico de energía limpiando la máquina. He estado allí, visto eso.
  • Algunos controladores RAID defectuosos o memoria que escribe sh ** en el disco: todo vale.

Y una larga lista de otras cosas.

Esto es, naturalmente, a menos que trabajes para un competidor mío, siempre haces una copia de seguridad:

  • En otra computadora
  • Que se aísla de al menos picos de potencia (incluso si tiene un USV).

Esta es la razón por la cual las cintas se balancean: no están conectadas y cualquier cosa que no sea un incendio o una inundación no las dañará. Pico de energía: ahí va el lector de cinta y tal vez el robot, pero las cintas que no están en el lector no se verán afectadas.

Lo MEJOR serían las copias de seguridad fuera del sitio (¿ya mencioné cosas como incendios e inundaciones?) (Nuevamente, cuando trabajas para un competidor, no existe el incendio de un edificio, no es totalmente necesario, como es el seguro contra incendios, por favor, ahorre ese dinero).

Ahora, puede pensar "oh, las inundaciones nunca ocurren". Asegúrate de estar seguro. Mira, aquí hay un video de una inundación del 09.09.09 de un centro de datos de vodaphone. Estoy seguro de que comprenderá dónde está el problema para una copia de seguridad de la computadora inite / in:

http://www.youtube.com/watch?v=ttcQy3bCiiU

TomTom
fuente
Fotos del
Katherine Villyard
4

Lección aprendida de dos unidades RAID-1 que fallan dentro de media hora una de la otra: RAID no es un mecanismo de respaldo, de ninguna manera o forma.

RAID es un mecanismo de disponibilidad que reduce el tiempo de inactividad en caso de falla del hardware, pero no lo ayudará en absoluto, por ejemplo, en caso de virus, eliminación / modificación de datos o falla catastrófica de hardware.

Michael Stum
fuente
1
En caso de ciertas clases de fallas de hardware. Si la tarjeta RAID falla, sus contenedores se han ido.
mfinni
3

Muchos administradores experimentados siguen lo que se conoce como la regla 3-2-1 de copias de seguridad:

  • Debe tener al menos tres copias de sus datos, incluida la fuente principal. Es decir, una sola copia de seguridad no es suficiente y las copias dentro del mismo sistema físico no cuentan.

  • Debería utilizar al menos dos métodos de copia de seguridad diferentes.

  • Debe tener al menos una copia de sus datos fuera del sitio.

Las instantáneas violan las tres partes:

  • Solo usa una sola máquina física. Cualquier cosa que afecte a toda la máquina, como una falla de la PSU, podría llevar consigo todos sus datos.

  • Solo está utilizando un método único para sus copias de seguridad. Si algo anda mal, solo lo descubrirá cuando restaure la copia de seguridad en una situación de crisis.

  • No tiene copias de seguridad fuera del sitio. Las inundaciones y los incendios solo le suceden a otros, hasta que te suceden a ti ...

Por lo tanto:

  • Debe tener al menos una copia de seguridad en una máquina separada en su LAN.

  • Debe tener al menos una copia de seguridad que no se genere mediante instantáneas. ¿Quizás tarpodría estar en orden un buen archivo incremental ? O una rsynccopia basada?

  • Debe tener al menos una copia de seguridad remota, lo más lejos posible de su ubicación actual y definitivamente no en el mismo edificio.

También debe señalarse que las instantáneas a nivel de bloque tienen aproximadamente las mismas garantías de consistencia que desconectar el equipo y luego copiar sobre los discos. En general, deberá ejecutar fsckdespués de una restauración o esperar que el diario sea suficiente.

Las instantáneas a nivel del sistema de archivos deberían ser mejores, pero aún así no garantizarían la consistencia de sus archivos. Para muchas aplicaciones (los servidores de bases de datos me vienen a la mente) copiar los archivos de una instancia en vivo puede ser completamente inútil, ya que podrían estar en un estado inconsistente. Debería utilizar su propio mecanismo de copia de seguridad a nivel de aplicación para garantizar la existencia de una copia limpia, para lo cual también se aplicaría la regla 3-2-1.

Finalmente, tenga en cuenta que en este momento solo estamos hablando de copias de sus datos actuales . Para protegerse contra fallas (o violaciones de seguridad, para el caso) que continúan sin ser detectadas por algún tiempo, también necesita tener varias copias anteriores de sus datos durante bastante tiempo.

thkala
fuente
Asumiendo que las instantáneas de btrfs son algo así como las instantáneas de ZFS en términos de garantías de consistencia (y con cuánta inspiración extrae btrfs de ZFS, no veo por qué ese no sería el caso), la instantánea representará el momento en disco datos de tiempo. Por lo que el sistema de archivos será en un estado coherente que si vuelve a una instantánea, pero si los datos se mantienen en la memoria RAM y sólo lava periódicamente y es necesario que los datos de dar sentido a lo que está en el disco (software de servidor de base de datos cf), entonces aquellos particulares Es muy probable que los archivos estén en un estado inconsistente después (o antes) de la reversión.
un CVn
2

Por sí solo, no es una solución de respaldo en absoluto . Reducirá o eliminará el tiempo de inactividad en ciertos escenarios de falla, pero no lo protege en absoluto de muchos otros

Por supuesto, puede ser una parte muy valiosa de una solución de respaldo + disponibilidad más completa:

  • RAID más instantáneas en el mismo hardware
  • Copias in situ en otro hardware (recuerde: hay modos de falla que eliminarían toda la caja, el controlador, las unidades y todo de una vez)
  • Copias remotas semi-desconectadas
  • y, por supuesto, copias fuera de línea y fuera de sitio adecuadas para desastres reales

Además: asegúrese de probar regularmente sus copias de seguridad. El peor momento para descubrir que sus copias de seguridad no funcionan es cuando necesita recuperar algo de ellas ...

David Spillett
fuente