Las dos razones principales que se me ocurren para tomar copias de seguridad parecen estar resueltas cuando uso instantáneas y RAID junto con btrfs. (Por RAID aquí, me refiero a RAID1 o 10)
- Eliminación accidental de datos: las instantáneas cubren este caso
- Falla de una unidad y putrefacción
- Falla completa: RAID cubre este caso
- Unidad que devuelve datos incorrectos: la función de corrección de errores de RAID + btrfs cubre este caso
Entonces, como una solución de respaldo en el sitio, esto parece funcionar bien, ¡y ni siquiera necesita un dispositivo de almacenamiento de datos separado para ello!
Sin embargo, he oído que tanto RAID como las instantáneas no se consideran copias de seguridad adecuadas, por lo que me pregunto si me he perdido algo.
Además de que btrfs todavía no es una tecnología madura, ¿puedes pensar en algo que me haya perdido? ¿O es correcto mi pensamiento y esta es una solución de respaldo válida en el sitio?
Respuestas:
No, no es.
¿Qué sucede cuando su sistema de archivos o volumen RAID se corrompe? ¿O su servidor se prendió fuego? ¿O alguien formatea accidentalmente la matriz incorrecta?
Pierdes todos tus datos y las copias de seguridad no reales que creías tener. Es por eso que las copias de seguridad reales se encuentran en un sistema completamente diferente a los datos que está respaldando, porque las copias de seguridad protegen contra algo que le sucede al sistema en cuestión que podría causar la pérdida de datos. Mantenga sus copias de seguridad en el mismo sistema que las copias de seguridad, y la pérdida de datos en ese sistema también puede afectar sus "copias de seguridad".
fuente
Para la copia de seguridad en el sitio , la instantánea puede ser lo suficientemente buena, siempre que 'exporte' regularmente su instantánea a otro lugar, donde exista como datos pasivos.
Y, pruebe regularmente si su 'instantánea enviada' puede ser restaurada.
Así es como implementé una copia de seguridad rápida de algunos de mis servidores: almacenar los datos en ZFS, tomar una instantánea de ZFS, enviar el delta a otro servidor, donde se vuelve a crear todo el sistema de archivos (menos el servicio real en ejecución).
Por supuesto, la mejor copia de seguridad es siempre fuera del sitio. Por lo tanto, después de 'enviar' la (s) instantánea (s) a un sistema separado, realice una 'salida de cinta' de las instantáneas regularmente.
Entonces, en mi sistema, el servidor que recibe los deltas de instantáneas, volca regularmente todos sus grupos ZFS (incluidas las instantáneas anteriores) en cinta.
Y, por supuesto, pruebe sus salidas de cinta para asegurarse de que pueda restaurarse.
Nota: Deseará que la instantánea se realice durante la actividad del disco inactivo, y preferiblemente en coordinación con la base de datos (si existe) para garantizar la coherencia; de lo contrario, la cura podría ser peor que la enfermedad. Es por eso que la función 'instantánea instantánea' de NetApp y EMC es muy útil: pospondrán la instantánea de un LUN hasta que la base de datos que utiliza el LUN indique que es seguro llevar a cabo la instantánea.
fuente
.zfs/snapshots
directorio o montar una de las instantáneas en otro lugar para hacer una salida de cinta. Por lo tanto, es una copia de seguridad separada para diferentes instantáneas.cd
en el que ingresar.zfs send $SNAPSHOT_NAME > $YOUR_TAPE_DEVICE
, y luego hacer unzfs receive $RESTORE_NAME < $YOUR_TAPE_DEVICE
. Sin embargo, sinceramente, no tengo experiencia con copias de seguridad de zvols, aunque ...Lo que dijo HopelessN00b. No.
Las copias de seguridad adecuadas se encuentran en un dispositivo separado del dispositivo del que se realiza la copia de seguridad. ¿Qué sucede cuando pierdes dos o más unidades? ¿Qué sucede cuando se quema la sala de servidores? ¿Qué sucede cuando alguien destruye accidentalmente su matriz?
(Alerta de anécdota: una vez escuché de alguien que tenía PXE configurado para instalar automáticamente el último Fedora. Su UPS falló. Después de un corte de energía, su servidor se reinició y se configuró para arrancar PXE y ... instaló Fedora sobre sus datos. Mi punto? Suceden cosas extrañas. Afortunadamente, tenía copias de seguridad adecuadas.)
Preferiblemente, tiene al menos tres copias de sus datos, una almacenada completamente fuera del sitio en caso de que el centro de datos se queme.
fuente
Las instantáneas implementadas correctamente DEBEN ser compatibles con su almacenamiento, ya que las copias de seguridad decentes las usan como la primera etapa de la creación de un trabajo de copia de seguridad. Sin embargo, es una mala idea usar instantáneas para la copia de seguridad primaria. Razones:
1) Las instantáneas y el almacenamiento de back-end PUEDEN fallar. Por lo tanto, las copias de seguridad reales deben estar utilizando un conjunto de husillos separado o hay una gran posibilidad de perder tanto el conjunto de trabajo primario como los datos de copia de seguridad @ al mismo tiempo.
2) Las instantáneas "mastican" el espacio utilizable. Tiene sentido utilizar un almacenamiento costoso y rápido para los datos actuales y las instantáneas y copias de seguridad sin carga que son datos fríos para un almacenamiento más barato y más lento. Funciona muy bien con 1) BTW.
3) Las instantáneas generalmente ralentizan todo el proceso. La mayoría de los sistemas usan Copy-on-Write y este enfoque crea fragmentación. Redirect-on-Write son más rápidos pero comen MUCHO espacio. Muy pocos proveedores han implementado adecuadamente las instantáneas. NetApp con WAFL y Nimble Storage con CASL (no estoy afiliado con ninguno de ellos). Casi todos los demás tienen problemas. Por ejemplo, Dell Equallogic activa la actualización de la página de 15 MB (y el desperdicio) en cada byte modificado. Eso es caro.
fuente
Sí lo es. Es una manera perfecta de almacenar copias de seguridad. No se necesita nada más, diablos, incluso hacer verificaciones de integridad es solo una pérdida de tiempo.
Solo para confirmar, antes de dar más consejos ... trabajas para un competidor mío, ¿verdad? Realmente lo haces, ¿seguro? ¿No? Oh.
Lo siento, nueces. No, en absoluto. Lo siento amigo.
El problema es que está totalmente abierto a cualquier error que ocurra en (a) el sistema y (b) el nivel del sistema operativo. Básicamente solo protege contra alguien que elimina algunos datos. Agradable. ES un error frecuente.
Lo que no estás protegiendo es:
Y una larga lista de otras cosas.
Esto es, naturalmente, a menos que trabajes para un competidor mío, siempre haces una copia de seguridad:
Esta es la razón por la cual las cintas se balancean: no están conectadas y cualquier cosa que no sea un incendio o una inundación no las dañará. Pico de energía: ahí va el lector de cinta y tal vez el robot, pero las cintas que no están en el lector no se verán afectadas.
Lo MEJOR serían las copias de seguridad fuera del sitio (¿ya mencioné cosas como incendios e inundaciones?) (Nuevamente, cuando trabajas para un competidor, no existe el incendio de un edificio, no es totalmente necesario, como es el seguro contra incendios, por favor, ahorre ese dinero).
Ahora, puede pensar "oh, las inundaciones nunca ocurren". Asegúrate de estar seguro. Mira, aquí hay un video de una inundación del 09.09.09 de un centro de datos de vodaphone. Estoy seguro de que comprenderá dónde está el problema para una copia de seguridad de la computadora inite / in:
http://www.youtube.com/watch?v=ttcQy3bCiiU
fuente
Lección aprendida de dos unidades RAID-1 que fallan dentro de media hora una de la otra: RAID no es un mecanismo de respaldo, de ninguna manera o forma.
RAID es un mecanismo de disponibilidad que reduce el tiempo de inactividad en caso de falla del hardware, pero no lo ayudará en absoluto, por ejemplo, en caso de virus, eliminación / modificación de datos o falla catastrófica de hardware.
fuente
Muchos administradores experimentados siguen lo que se conoce como la regla 3-2-1 de copias de seguridad:
Debe tener al menos tres copias de sus datos, incluida la fuente principal. Es decir, una sola copia de seguridad no es suficiente y las copias dentro del mismo sistema físico no cuentan.
Debería utilizar al menos dos métodos de copia de seguridad diferentes.
Debe tener al menos una copia de sus datos fuera del sitio.
Las instantáneas violan las tres partes:
Solo usa una sola máquina física. Cualquier cosa que afecte a toda la máquina, como una falla de la PSU, podría llevar consigo todos sus datos.
Solo está utilizando un método único para sus copias de seguridad. Si algo anda mal, solo lo descubrirá cuando restaure la copia de seguridad en una situación de crisis.
No tiene copias de seguridad fuera del sitio. Las inundaciones y los incendios solo le suceden a otros, hasta que te suceden a ti ...
Por lo tanto:
Debe tener al menos una copia de seguridad en una máquina separada en su LAN.
Debe tener al menos una copia de seguridad que no se genere mediante instantáneas. ¿Quizás
tar
podría estar en orden un buen archivo incremental ? O unarsync
copia basada?Debe tener al menos una copia de seguridad remota, lo más lejos posible de su ubicación actual y definitivamente no en el mismo edificio.
También debe señalarse que las instantáneas a nivel de bloque tienen aproximadamente las mismas garantías de consistencia que desconectar el equipo y luego copiar sobre los discos. En general, deberá ejecutar
fsck
después de una restauración o esperar que el diario sea suficiente.Las instantáneas a nivel del sistema de archivos deberían ser mejores, pero aún así no garantizarían la consistencia de sus archivos. Para muchas aplicaciones (los servidores de bases de datos me vienen a la mente) copiar los archivos de una instancia en vivo puede ser completamente inútil, ya que podrían estar en un estado inconsistente. Debería utilizar su propio mecanismo de copia de seguridad a nivel de aplicación para garantizar la existencia de una copia limpia, para lo cual también se aplicaría la regla 3-2-1.
Finalmente, tenga en cuenta que en este momento solo estamos hablando de copias de sus datos actuales . Para protegerse contra fallas (o violaciones de seguridad, para el caso) que continúan sin ser detectadas por algún tiempo, también necesita tener varias copias anteriores de sus datos durante bastante tiempo.
fuente
Por sí solo, no es una solución de respaldo en absoluto . Reducirá o eliminará el tiempo de inactividad en ciertos escenarios de falla, pero no lo protege en absoluto de muchos otros
Por supuesto, puede ser una parte muy valiosa de una solución de respaldo + disponibilidad más completa:
Además: asegúrese de probar regularmente sus copias de seguridad. El peor momento para descubrir que sus copias de seguridad no funcionan es cuando necesita recuperar algo de ellas ...
fuente