He estado investigando sobre esto, lo suficientemente divertido.
Sus copias de seguridad en S3 pueden fallar dependiendo de su región debido a la consistencia eventual; La advertencia básica es que si hace esto lo suficiente, en algún momento tendrá errores al abrir o encontrar archivos, ya que el sistema de archivos mágico en el fondo de Amazon se sincroniza entre servidores, por lo que sus copias de seguridad pueden no ser confiables.
En cuanto a si necesita guardarlos de otra manera, esto depende de su gestión de riesgos. ¿Confías en Amazon para guardar tus datos?
Es posible que pierdan algo o tengan una falla mayor en su sistema de almacenamiento; sin duda tienen cláusulas en sus contratos que especifican que si pierden sus datos, ese es su problema. No de ellos. Además, dado que sus datos están alojados en otro lugar, no sabe qué harán con ellos; la policía quiere sus datos? Puede que ni siquiera sepas que alguien más accedió a él.
¿Confías en eso? Si los datos no son clave para su negocio y está dispuesto a aceptar este riesgo, entonces no hay necesidad de descargarlos al almacenamiento externo. Si no está dispuesto a arriesgarse a que sus datos estén seguros en los servidores de almacenamiento de Amazon, debe hacer arreglos para volcarlos periódicamente en su propio almacenamiento.
En otras palabras, no creo que haya una respuesta directa a esto, ya que depende de su tolerancia al riesgo y sus necesidades comerciales. Muchas personas no confiarían completamente en sus ingresos únicamente en el almacenamiento con la nube, personalmente me siento un poco desconfiado de eso ...
Para hacerlo mejor, en discusiones e investigaciones, otro enfoque a considerar es crear un volumen EBS lo suficientemente grande como para almacenar los datos, adjuntarlo a la instancia EC2, guardar sus datos allí, luego puede desmontar el volumen y guardar esos datos en S3 . Estoy a punto de investigar si esto se haría como guardar el archivo de volumen en S3 o los contenidos ... pero luego puede eliminar la instancia de EBS cuando termine para ahorrar costos de almacenamiento.
EDITAR Veo en la relectura que está guardando DE S3 A la instancia EC2, no al revés (aunque no sé si el problema de consistencia eventual aún podría causar problemas allí). ¿Estás intentando guardar datos en una instancia EC2 como copia de seguridad? Creo que, en términos de costos, esa no es una táctica sólida; puede ser más barato hacer copias de seguridad en un disco local cuando se tiene en cuenta el almacenamiento a largo plazo de ese tipo de datos, junto con el tiempo de VM. Con los costos de la unidad, puede copiar datos en un disco local como copia de seguridad.
Todavía mantendría las advertencias sobre confiar en Amazon y su almacenamiento. Si desea mantener todo en Amazon S3 pero tiene más redundancia, duplique sus depósitos de S3 en todas las regiones, y si tienen una interrupción que afecta a una región, no debería eliminarlos a todos. Esperas Sin embargo, todo es posible.
Todo se reduce a cuánto valora sus datos, cuánto está dispuesto a pagar por ellos y cuánto riesgo desea tolerar.
He usado s3cmd
s3cmd sync
para hacer esto. Es un poco rsync en su operación, y puede empujar y extraer directorios completos entre S3 y otro sistema Linux de su elección.No veo ninguna razón por la que no
s3cmd sync
pueda ejecutar una instancia EC2 en ejecución, o incluso su propia estación de trabajo de desarrollador (o un servidor de almacenamiento).Es posible que desee configurar una instancia de VPC, y luego puede asignar a un pequeño nodo dentro de su VPC la función de servidor de respaldo, y asignarle una IP dentro de la red de Amazon, así como dentro de su subred local.
fuente
Mi consejo es que sus datos son su responsabilidad, no de Amazon. Si perder los datos no es tan importante, no hagas tu propia copia de seguridad. Si es así, tome su propia copia de seguridad en (al menos) un JBOD barato (y verifíquelo regularmente) como lo hago yo.
Descubrirá cuánta responsabilidad está dispuesta a asumir Amazon por sus datos, el día que los pierdan.
fuente
Si puede permitírselo (mientras hago esto) es tener todos mis datos almacenados en mi servidor, pero sacándolos de Amazon s3. Entonces, si Amazon se cae por algún motivo (toque madera), simplemente puedo extraer todos mis datos al instante directamente desde mi servidor. Desde mi servidor hago copias de seguridad mensuales en mi disco local. Como mi sitio web tiene más de 2 TB en el sitio.
fuente
Aunque este es un hilo viejo, es lo primero que surge cuando se realiza una copia de seguridad de Google S3, así que pensé en agregarlo ...
Al investigar un poco sobre esto, descubrí Rclone https://rclone.org/ : es un software rsync-ish diseñado para copiar entre servicios de almacenamiento de archivos en la nube y es compatible con la mayoría de ellos. Sin afiliación y aún no lo he usado, así que no puedo decir si es bueno o malo, pero pensé que podría ayudar a alguien.
Me parece que hay una oportunidad para un servicio alojado que realiza copias de seguridad 'fuera del sitio' de archivos alojados en la nube (S3, Google Storage, Rackspace Cloud Files, etc.) ...
fuente