Investigando más allá de RAID para el clúster de disco en un servidor, ¿es comparable Dynamic Disk Pool? [cerrado]

9

Con el desarrollo de sistemas hiperconvergentes, podemos ver otra tecnología que no sea RAID para manejar el almacenamiento distribuido (como ceph por ejemplo o VSAN o almacenamiento distribuido como en nutanix).

Pero, ¿existe un derivado de tecnología de código abierto del almacenamiento de objetos que pueda usar en un solo servidor con un gran disco grande, digamos una docena de discos de 12 a sata, que garantizará la seguridad de los datos pero sin el inconveniente de un gran tiempo de reconstrucción al reemplazar un disco. Por lo tanto, Dynamic Disk Pool es una forma de RAID sin clúster que se puede usar a nivel de bloque como iscsi o al nivel de sistema de archivos como zfs o brtrfs.

Me gustaría proporcionar algo similar en características a una bahía SYNOLOGY (NFS, objetivo iscsi, SMB) pero sin RAID para el almacenamiento en bloque.

Gracias por sus indicaciones.

dominix
fuente
¿Ha considerado (por ejemplo) una matriz RAID 5 con una sexta unidad como repuesto dinámico?
Mike Waters
1
Todos recomiendan no usar RAID5 para grandes volúmenes. Por cierto, raid5 no significa 5 discos. Pero sí, se recomienda el repuesto en caliente, sin embargo, ya he experimentado problemas con el repuesto en caliente, a veces el repuesto en caliente murió porque han estado girando durante años antes de usarse.
dominix
Necesitas más discos. La única solución para reconstruir el retraso es más redundancia. También códigos de borrado.
Dan D.

Respuestas:

7

Para un solo sistema, realmente sugeriría seguir con los arrays RAID bien conocidos y efectivos. Los almacenes de objetos tienen una penalización de rendimiento significativa en comparación con el acceso clásico a bloque / archivo y, si no escala, pierde muchos de sus beneficios.

Dicho esto, excluyendo RAID clásico, tiene las siguientes posibilidades:

  • sin miedo , que utiliza un enfoque de replicación a nivel de archivo en lugar de uno a nivel de bloque

  • glusterfs , configurando un ladrillo diferente para cada disco y aplicando una replica 2política

  • zfs que, aunque basado en bloques, no es 100% idéntico al RAID de software o hardware clásico

También tenga en cuenta que el almacenamiento de objetos no garantiza un menor tiempo de reconstrucción; Por el contrario, aborda las reconstrucciones largas garantizando políticas de replicación más fuertes (es decir, replica 3en diferentes bastidores).

shodanshok
fuente
La gran ventaja de ZFS en mi libro es que realmente puede decirle qué archivo (s), si alguno, se ha dañado; y si puedes leerlos, sabes que no están corruptos. (Excepto si lo ha hecho zfs set checksum=off, pero no puedo imaginar por qué alguien ejecutaría ZFS y lo haría.) Incluso en ausencia de redundancia de almacenamiento, esto puede ser una gran ventaja porque sabrá exactamente cuál de sus jefes ... er , importantes hojas de cálculo ... deben restaurarse desde la copia de seguridad.
un CVn
7

"eso garantizará la seguridad de los datos, pero sin el inconveniente de un gran tiempo de reconstrucción al reemplazar un disco"

Tienes un engaño en el sentido de que crees que el software puede cambiar la realidad, es decir, la física. Los tiempos de reconstrucción de Hugh esencialmente se reducen a tener que escribir un disco completo y si escribes 2tb de información en un disco, lleva mucho tiempo PORQUE ESTO ES CÓMO SE COMPORTAN LOS DISCOS. Particularmente si TIENES que leer varios discos para obtener los datos que faltan en el primer lugar (Raid 5,6 analógico). Hay detalles sobre cómo puede ser "estúpido" el software (es decir, agregar tiempo por encima del mínimo físico), pero el mínimo ya es horas si habla de discos SATA grandes y lentos.

Todas las demás tecnologías que mencione tienen que cumplir con la misma problemática durante mucho tiempo que desea evitar porque: la física.

Y no ayuda que su red de clúster, si realiza la replicación de la red, esté usando 10g o menos (que es el caso más probable) en lugar de ir a 40g o 100g.

TomTom
fuente
Mi empleador hace un analizador de red que es esencialmente una PC estándar con NIC estándar de 2 * 100 GbE que analiza el tráfico de transmisión de video sin comprimir en tiempo real. Por lo tanto, no es del todo descabellado, pero pragmáticamente, sí, las velocidades de red probablemente serán un cuello de botella adicional.
Jörg W Mittag
Bueno, todos mis servidores tienen un consumo de 2x100gb en estos días, pero el departamento de TI de mi principal cliente vende 1gb (!) De velocidad de red de fondo como "alto rendimiento". El mundo parece funcionar con proples que ni siquiera saben qué es la gama alta.
TomTom
1
¿No se reduciría drásticamente el tiempo de reconstrucción si todos los discos fueran SSD?
Mike Waters
1
Depende Ok, no, sí, se reduciría, pero SATA también alcanza un máximo de 600mb / sy si ejecuta una red hiperconvergente, eso también significa que debe pasar por la red. Y ni siquiera necesita todos los SSD: un caché SSD decente también debería ayudar con la lectura y la escritura (uso un caché SSD de 3.6 gb en cada servidor). Pero realmente necesitas una columna vertebral para manejar esto, entonces.
TomTom
1
Mike dijo SSD, no SATA. Hay algunos SSD conectados a PCIe que son más rápidos que 600 MB / s.
Peter Cordes