¿Es posible ceph manejar matrices RAID de hardware (LUN) como unidades OSD?

8

Soy bastante nuevo en ceph e intento averiguar si ceph admite HBA de incursión a nivel de hardware.

Lamentablemente no pude encontrar ninguna información. Lo que encontré es que se recomienda usar discos simples para OSD. Pero esto empuja los requisitos a PCIe, las interfaces del disco a anchos de banda altos y los requisitos de CPU son muy altos. Los controladores RAID de hardware ya han resuelto estos requisitos y proporcionan una alta redundancia basada en las configuraciones sin consumir mi PCIe, CPU o cualquier otro recurso.

Entonces, mi configuración deseada sería tener controladores RAID locales, que manejan mi redundancia en disco a nivel de controlador (Raid 5, raid 6), sea cual sea el nivel RAID que necesito. Además de los LUN RAID, me gustaría usar ceph para hacer el mayor nivel de replicación entre: host, chasis, rack, fila, centro de datos o lo que sea posible o plano en CRUSH

¿Alguna experiencia en esa configuración?

¿Es una configuración recomendada?

¿Alguna documentación detallada para esta integración RAID de hardware?

cilap
fuente

Respuestas:

7

Puedes no significa que debas. Es posible asignar RAID LUN a Ceph, pero se inyecta una capa adicional de abstracción y se vuelve inútil al menos parte de la funcionalidad de Ceph.

Tema similar en su lista de correo:

http://lists.ceph.com/pipermail/ceph-users-ceph.com/2017-September/021159.html

BaronSamedi1958
fuente
1
¿podría elaborar "hacer que al menos parte de la funcionalidad de Ceph sea inútil" un poco más? No
entiendas
1
Toda la idea de Ceph ... OK, ¡una de las ideas principales! es evitar administrar "islas de almacenamiento" que son RAID LUN.
BaronSamedi1958
0

Pero esto empuja los requisitos a PCIe, las interfaces del disco a anchos de banda altos y los requisitos de CPU son muy altos.

En realidad no, muchas cargas de trabajo de almacenamiento se sirven bien con CPU e interconexiones modernas de uso general.

Sí, un controlador RAID se encarga de la redundancia con un puñado de discos en un chasis. Pero eso es costo y complejidad cuando ejecuta soluciones de almacenamiento distribuido de múltiples nodos ya redundantes como Ceph. ¿Por qué molestarse en duplicar un disco físico cuando Ceph ya tiene varias copias del mismo?

Los componentes básicos de esta solución son solo un montón de discos. Tales como la Bóveda abierta de Open Compute Storage . 30 husos en un gabinete, conectados a un nodo de cómputo de quizás un par de docenas de núcleos de CPU. Agregue tantos nodos como necesite para escalar. Puede dejar ese cálculo dedicado a Ceph si desea maximizar el rendimiento.

John Mahowald
fuente
¿Tiene datos con puntos de referencia de CPU, mem y disco reales en comparación con los puntos de referencia RAID de hardware? Con las matrices RAID de hardware, tengo pocos requisitos de CPU y memoria, ya que el controlador de hardware se encarga de eso.
cilap
Yo no. Y de todos modos querrás hacer tu propio punto de referencia. Solo tenga en cuenta que las CPU realizan miles de millones de ciclos por segundo, y las interconexiones (PCIe) realizan miles de millones de transferencias por segundo. Puede usar un controlador RAID, simplemente no parece necesario en un nodo de almacenamiento distribuido.
John Mahowald
-1

La configuración recomendada es utilizar discos individuales o, eventualmente, discos en pares RAID-1.

Un solo controlador SAS (o un controlador RAID en modo JBOD) puede manejar varios cientos de discos sin ningún problema.

El uso de matrices muy grandes derrota el propósito mismo de CEPH, que es evitar puntos únicos de fallas y "puntos calientes". También dañará su redundancia.

Supongamos que desea construir un clúster 1 PB CEPH con unidades de 8 TB, con chasis de servidores de 36 discos (hardware normal tipo Supermicro). Comparemos las configuraciones con y sin RAID en términos de capacidad de almacenamiento y confiabilidad:

  • Con RAID-6 necesita 5 chasis (y 10 OSD).

    • Cada chasis tendrá 2 matrices RAID de 18 discos.
    • Tendrás 1024 TB de almacenamiento disponible.
    • En caso de un bloqueo de disco múltiple, tendrá que reconstruir 256 TB.
  • Con CEPH y 5 chasis tendrás 180 OSD.

    • La capacidad disponible será ligeramente superior (utilizando codificación de borrado): 1152 TB
    • en caso de un bloqueo múltiple del disco, tendrá que reconstruir solo la cantidad de discos fallidos (a menos que sea un servidor completo, siempre será inferior a 256 TB).
wazoox
fuente
Estoy obteniendo los requisitos de Ceph, pero aún no se responde una pregunta importante. ¿Cuáles son los requisitos para el chasis de 36 unidades? Afaik necesita 36 núcleos de la descripción de ceph para ello. Además, ¿qué configuración sugeriría para su ejemplo? ¿Cuáles son los esfuerzos de replicación y cuál es su punto de referencia?
Cilap
solo lo olvidé Afaik su configuración necesita más instancias o tal vez incluso más servidores para la administración.
Cilap
@cilap depende realmente del rendimiento necesario. Por lo general, no necesita 1 núcleo por OSD, usar aproximadamente la mitad de los núcleos es suficiente. El rendimiento de la codificación de borrado es inferior a la replicación completa.
wazoox
No mencioné MDS, ya que de todos modos lo harás. dependiendo de su carga de clúster, puede usar los nodos de almacenamiento como servidores MDS y MON.
wazoox