¿Directrices para la cantidad máxima de discos en un conjunto RAID?

13

En cualquiera de los niveles de RAID que usan bandas, aumentar el número de discos físicos generalmente aumenta el rendimiento, pero también aumenta la posibilidad de que falle un disco en el conjunto. Tengo la idea de que no debería usar más de unos 6-8 discos en un conjunto RAID dado, pero eso es más que simplemente transmitido por el conocimiento y no un hecho difícil de la experiencia. ¿Alguien puede darme buenas reglas con razones detrás de ellos para el número máximo de discos en un conjunto?

kbyrd
fuente

Respuestas:

10

La cantidad máxima recomendada de discos en un sistema RAID varía mucho. Depende de una variedad de cosas:

  • La tecnología de disco SATA tolera matrices más pequeñas que SAS / FC, pero esto está cambiando.
  • RAID Controller limita El RAID controlador sí mismo puede tener máximos fundamentales. Si está basado en SCSI y cada disco visible es un LUN, la regla 7/14 es verdadera. Si está basado en FibreChannel, puede tener hasta 120 o más discos visibles.
  • Procesador del controlador RAID Si utiliza cualquier tipo de RAID de paridad, la CPU en la tarjeta RAID será el limitador de la velocidad con la que puede escribir datos. Habrá un máximo fundamental para la tarjeta. Lo verá cuando una unidad falla en un LUN RAID5 / 6, ya que la caída del rendimiento afectará a todos los LUN asociados con la tarjeta RAID.
  • El ancho de banda del bus U320 SCSI tiene sus propios límites, al igual que FibreChannel. Para SCSI, mantener miembros RAID en diferentes canales puede mejorar el paralelismo y mejorar el rendimiento, si el controlador lo admite.

Para RAID basado en SATA, no desea tener más de aproximadamente 6.5TB de disco sin formato si está utilizando RAID5. Ve más allá y RAID6 es una idea mucho mejor. Esto se debe a la tasa de error de lectura no recuperable. Si el tamaño de la matriz es demasiado grande, las posibilidades de que ocurra un error de lectura no recuperable durante la reconstrucción de la matriz después de una pérdida aumentan cada vez más. Si eso sucede, es muy malo. Tener RAID6 reduce en gran medida esta exposición. Sin embargo, las unidades SATA han mejorado en calidad últimamente, por lo que esto puede no ser cierto por mucho más tiempo.

La cantidad de ejes en una matriz realmente no me preocupa demasiado, ya que es bastante simple llegar a 6.5TB con unidades de 500GB en U320. Si lo hace, sería una buena idea colocar la mitad de las unidades en un canal y la otra mitad en el otro solo para reducir la contención de E / S en el lado del bus. Las velocidades SATA-2 son tales que incluso dos discos que se transfieren a velocidad máxima pueden saturar un bus / canal.

Los discos SAS tienen una tasa MTBF más baja que SATA (nuevamente, esto está comenzando a cambiar), por lo que las reglas son menos firmes allí.

Hay matrices FC que usan unidades SATA internamente. Los controladores RAID son muy sofisticados, lo que enturbia las reglas generales. Por ejemplo, la línea de matrices HP EVA agrupa los discos en 'grupos de discos' en los que se disponen los LUN. Los controladores colocan bloques a propósito para los LUN en ubicaciones no secuenciales y realizan nivelación de carga en los bloques detrás de escena para minimizar la detección de puntos calientes. Lo que es una forma larga de decir que hacen mucho trabajo pesado para usted con respecto a E / S de múltiples canales, husillos involucrados en un LUN y lidiando con la redundancia.

En resumen, las tasas de falla de los discos no controlan las reglas de cuántos ejes hay en un grupo RAID, el rendimiento sí lo hace. En la mayor parte.

sysadmin1138
fuente
3

Si busca rendimiento, es importante comprender la interconexión que está utilizando para conectar las unidades a la matriz. Para SATA o IDE, estará mirando 1 o 2 por canal, respectivamente (suponiendo que esté utilizando un controlador con canales independientes). Para SCSI, esto depende en gran medida de la topología del bus. Los primeros SCSI tenían un límite de dispositivo de 7 ID de dispositivo por cadena (también conocido como por controlador), uno de los cuales tenía que ser el controlador en sí, por lo que tendría 6 dispositivos por cadena SCSI. Las nuevas tecnologías SCSI permiten casi el doble de ese número, por lo que estarías viendo 12+. La clave aquí es que el rendimiento combinado de todas las unidades no puede exceder la capacidad de la interconexión , de lo contrario, sus unidades estarán "inactivas" cuando tengan el máximo rendimiento.

Tenga en cuenta que las unidades no son el único enlace débil aquí; cada interconexión sin redundancia da como resultado un único punto de falla. Si no me cree, configure una matriz RAID 5 en un controlador SCSI de cadena única, luego cortocircuite el controlador. ¿Todavía puedes acceder a tus datos? Sí, eso es lo que yo pensaba.

Hoy, las cosas han cambiado un poquito. Las unidades no han avanzado mucho en términos de rendimiento, pero el avance visto es lo suficientemente significativo como para que el rendimiento no sea un problema a menos que esté trabajando con "granjas de unidades", en cuyo caso está hablando de una infraestructura completamente diferente.y esta respuesta / conversación es discutible. Lo que probablemente le preocupará más es la redundancia de datos. RAID 5 fue bueno en su apogeo debido a varios factores, pero esos factores han cambiado. Creo que encontrará que RAID 10 podría ser más de su agrado, ya que proporcionará redundancia adicional contra fallas en la unidad al tiempo que aumenta el rendimiento de lectura. El rendimiento de escritura sufrirá un poco, pero eso puede mitigarse a través de un aumento en los canales activos. Tomaría una configuración RAID 10 de 4 unidades sobre una configuración RAID 5 de 5 unidades cualquier día, porque la configuración RAID 10 puede sobrevivir a un (caso específico) de falla de dos unidades, mientras que la matriz RAID 5 simplemente se da vuelta y muere con una falla de dos unidades. Además de proporcionar una redundancia ligeramente mejor, también puede mitigar el "controlador como un único punto de falla" situación dividiendo el espejo en dos partes iguales, con cada controlador manejando solo la franja. En el caso de una falla del controlador, su banda no se perderá, solo el efecto espejo.

Por supuesto, esto también puede ser completamente incorrecto para sus circunstancias. Necesitará analizar las compensaciones involucradas entre velocidad, capacidad y redundancia. Al igual que el viejo chiste de ingeniería, "mejor-más barato-más rápido, elige dos", descubrirás que puedes vivir con una configuración que se adapte a ti, incluso si no es óptima.

Avery Payne
fuente
2

RAID 5 Yo diría que 0 unidades por matriz. Consulte http://baarf.com/ o comentarios similares de otras fuentes.

RAID 6 Diría que 5 unidades + 1 por cada repuesto dinámico por arreglo. Menos y también podría hacer RAID 10, más y está presionando el factor de riesgo y debería ir a RAID 10.

RAID 10 sube tan alto como quieras.

pplrppl
fuente
1

Yo uso 7 como un número máximo "mágico". Para mí, es un buen compromiso entre el espacio perdido por redundancia (en este caso, ~ 14%) y el tiempo para reconstruir (incluso si el LUN está disponible durante la reconstrucción) o aumentar el tamaño, y MTBF.

Obviamente, esto ha funcionado muy bien para mí cuando trabajo con gabinetes de disco SAN 14. Dos de nuestros clientes tenían cajas de 10 discos, y el número mágico 7 se redujo a 5.

En general, 5-7 ha funcionado para mí. Lo siento, tampoco tengo datos científicos, solo experiencia con sistemas RAID desde 2001.

ΤΖΩΤΖΙΟΥ
fuente
Entonces podría decir con seguridad "cortar el recinto por la mitad", entonces, parece que sí. Tengo un gabinete de 12 discos, tengo 10 discos, una matriz RAID 10 con 2 repuestos activos, pero afortunadamente no he tenido que reconstruirlo.
Matt Simmons
1

El máximo efectivo es el ancho de banda del controlador RAID.

Digamos que la lectura del disco es máxima a 70 MB / seg. En la carga máxima, no puede palear datos lo suficientemente rápido. Para un servidor de archivos ocupado (RAID 5) o un servidor db (RAID 10), puede presionar esto rápidamente.

SATA-2 es una especificación de interfaz de 300MB / S, SCSI Ultra 320 sería más consistente. Estás hablando de 6 a 10 discos porque no alcanzarás el pico con demasiada frecuencia.

gbn
fuente
0

El límite de discos en un RAID solía estar determinado por el número de dispositivos en un bus SCSI. Se pueden conectar hasta 8 o 16 dispositivos a un solo bus y el controlador se cuenta como un dispositivo, por lo que eran 7 o 15 discos.

Por lo tanto, muchos RAID eran 7 discos (uno era un repuesto dinámico), lo que significaba que quedaban 6 discos, o 14 discos con 1 repuesto dinámico.

Entonces, lo más importante acerca de los discos en un grupo RAID es probablemente cuántos IOPS necesita.

Por ejemplo, un disco SCSI de 10k RPM puede ejecutar alrededor de 200 IOPS, si tuviera 7 de ellos en un RAID 5, perdería 1 disco por paridad pero luego tendría 6 discos para lectura / escritura y un máximo teórico de 1200 IOPS, si necesitaba más IOPS: agregue más discos (200 IOPS por disco).

Y los discos más rápidos de 15k RPM SAS pueden alcanzar hasta 250 IOPS, etc.

Y luego siempre hay SSD (30,000 IOPS por disco) y son raidables (aunque realmente caros).

Y creo que SAS tiene un valor máximo loco para la cantidad de dispositivos, como 16,000 unidades

Rob Bergin
fuente
0

Con RAID6 y SATA, he tenido un buen éxito con 11 discos ... Y un repuesto dinámico (algunos controladores defectuosos necesitarán dos repuestos dinámicos para reconstruir RAID6). Esto es conveniente ya que muchos JBOD vienen en grupos de 12 discos como el HP MSA60.

Alexandre Carmel-Veilleux
fuente
0

Hasta que llegue a la velocidad máxima del autobús en el punto más angosto de la cadena (tarjeta de banda, enlaces), entonces puede tener sentido. Lo mismo cuando agrega muchas NIC de 1GbE a su bus PCI, no tiene ningún sentido.


fuente