¿Necesito un segundo controlador RAID para tolerancia a fallas?

9

Tengo un servidor con 3 discos duros instalados y una capacidad total de 6. Estamos planeando maximizarlo, pero nuestro consultor también sugirió obtener un segundo controlador RAID "por redundancia" para admitir las nuevas unidades. Para mí, esto no tiene mucho sentido. Incluso con un segundo controlador RAID que ejecuta la mitad de los discos, todavía estamos atascados con solo la mitad de nuestros discos / programas / datos si uno de los controladores muere (que no es mucho mejor que ejecutar sin ninguno). Estamos poniendo vmware en el servidor y mencionó vagamente algunas características avanzadas de tolerancia a fallas / conmutación por error, pero si los discos son inaccesibles debido a un controlador fallido, ¿cómo se supone que funciona?

Contando solo las razones de redundancia, no de rendimiento, ¿por qué querría tener un segundo controlador RAID en mi servidor?

raid fault-tolerance Bigbio2002
fuente

He visto un historial cuando el único controlador RAID falló, lo que hace que el almacenamiento de RAID alto en varios discos que ha estado atendiendo solo no solo sea inutilizable sino incluso todos los datos allí irrecuperables. Fue un duro golpe para la empresa. En última instancia, la mayoría de los datos se han reconstruido a partir de los archivos encontrados en las estaciones de trabajo. Vergüenza total Siempre refleje los datos en el clúster de disco independiente con obviamente otro controlador. Nunca suponga que RAID 6 le salvará la vida en todos los casos si confía en una sola tarjeta pequeña que se calienta a 80 ° C mientras funciona durante muchos años 7/24.

h22

11

En un diseño de 'alta disponibilidad de caja única', entonces sí, querría un segundo controlador, idealmente en un segundo bus también. Pero este tipo de enfoque ha dado paso a un diseño más económico basado en la agrupación donde la falla de una caja no detiene el servicio. Por lo tanto, depende de si planea usar un entorno en clúster o confiar en una sola caja. Incluso si su respuesta es la última, tener controladores duales puede verse como una complejidad adicional y tal vez exagerada.

editar: según su comentario sobre el uso de ESXi en su otra pregunta, tendría que decir que su agrupación es fabulosa , tenemos muchos clústeres de 32 vías que funcionan de manera brillante.

Chopper3
fuente

AFAIK, no vamos a utilizar la agrupación. ¿Cómo me beneficiaría un segundo controlador en una sola caja? ¿Existe tal cosa como la conmutación por error del controlador?

Bigbio2002

1

No en un mundo ESX / ESXi, no, uno solo estaría bien, asegúrese de obtener un controlador que haga una gran matriz R10 de los 6 discos pero que le permita crear estos discos lógicos de 2TB (o menos). La serie Pxxx de HP le permite hacer eso por cierto.

Chopper3

7

Un segundo controlador RAID que se usa activamente no es para redundancia. Solo si se trata de un controlador de espera en frío donde cambia todos sus discos cuando muere el primero. Entonces tienes redundancia (para el controlador). Pero tenga cuidado de hacerlo, como se publica aquí .

Por lo tanto, el RAID es para la redundancia de discos que conducen a un único punto de falla en el controlador. Tener un segundo controlador (no utilizado) puede resolver esto, ya que podría cambiar todo el disco al nuevo. Si esto funciona depende de otros factores ...

No soy hablante nativo, pero para mí la "tolerancia a fallos" es algo diferente a la "redundancia". ¿Puede alguien de habla inglesa ayudarme aquí?

mailq
fuente

La redundancia es una forma de lograr tolerancia a fallas :). Estaba buscando algo similar a un controlador de espera en frío o de conmutación por error. ¿Es esta una característica compatible o tendría que cambiar las tarjetas manualmente?

Bigbio2002

Nunca he visto un controlador donde el cambio de discos se realiza automáticamente. Esto se debe a que no lo busqué o porque no puedo imaginar cómo se deben conectar los cables entre un disco y dos controladores.

mailq

Las unidades de doble puerto son bastante comunes en entornos empresariales (piense en las estanterías SAN), pero los precios suben en un factor de 2 o 3, obviamente.

Adaptar

3

En una sola caja, en realidad necesita dos controladores RAID, conectados a dos complejos raíz PCI-E diferentes, para tener redundancia completa del subsistema de E / S. Esto se puede lograr mediante dos configuraciones diferentes:

use costosos discos SAS de doble puerto, con cada enlace SAS conectado a un controlador diferente. De esta manera, cada controlador está conectado a cada disco. Obviamente, los dos controladores no pueden operar en discos al mismo tiempo; alguna forma de bloqueo / cerca es necesaria para coordinar el acceso a los discos. SCSI tiene algunas disposiciones especiales para proporcionar el mecanismo de cercado necesario, pero estos deben ser coordinados por el software apropiado. En otras palabras, no puede simplemente conectar un disco a dos controladores y llamarlo por día; más bien, necesita una configuración de software adecuada para que funcione sin problemas;
utilice discos SAS / SATA de enlace único normales y más baratos, conectando la mitad de ellos a cada controlador. Por ejemplo, con 6 discos, debe conectar 3 discos a un controlador y 3 discos a otro controlador. En cada controlador, configure una matriz RAID según sea necesario (por ejemplo: RAID 5 o RAID1). Luego, a nivel del sistema operativo, puede configurar un RAID de software entre las dos matrices de discos, logrando una redundancia completa de la matriz. Si bien es más barata, esta solución tiene el inconveniente adicional de reducir a la mitad su capacidad de almacenamiento (debido al nivel de software RAID1).

Un problema clave con ambos enfoques es que no tiene redundancia total del sistema: un problema de la placa base / CPU puede derribar todo el sistema, independientemente de la cantidad de controladores / discos que tenga.

Por esta razón, este tipo de redundancia en una caja rara vez se usa últimamente (aparte de eso en implementaciones de SAN de gama media / alta); más bien, la agrupación / duplicación de red está ganando una gran tracción. Con la agrupación en clúster (o la duplicación de red) tiene redundancia total del sistema, ya que un solo sistema fallido no puede negar el acceso a los datos. Obviamente, la agrupación tiene sus propias trampas, por lo que no es una bala de plata / fácil, pero en algunas situaciones sus ventajas no se pueden negar. Además, también puede utilizar la duplicación de red asíncrona para tener una redundancia de datos casi en tiempo real en ubicaciones geográficamente diferentes, de modo que un solo evento catastrófico no cause estragos en sus datos.

shodanshok
fuente

Con algunos tipos de datos, la copia que solo está actualizada a la mitad (porque la sincronización falló a mitad de camino) puede ser inutilizable. Una base de datos es el ejemplo típico, pero también varios códigos fuente y conjuntos de datos con muchos archivos pequeños que dependen mucho unos de otros.

h22

Depende del mecanismo de replicación subyacente. DRBD, por ejemplo, permite el uso de una replicación sincronizada completa (protocolo C) o casi completa (protocolo B). Esto significa que cuando una escritura se confirma en el host de origen, también se confirma en el host remoto. En otras palabras, se respetan las barreras de escritura en ambos hosts). Con tal garantía, cualquier sistema de archivos / base de datos robusto debería recuperarse sin problemas.

shodanshok

Sí, algunas bases de datos admiten la replicación, y algunas otras aplicaciones también. Obviamente, es mucho más fácil trabajar con ellos.

h22

1

Necesitaría unidades SAS de doble puerto para proporcionar conmutación por error real en múltiples controladores. Si bien existen, es decididamente desmarcado, no en el rango de precios de un solo servidor que solo tiene almacenamiento interno.

Estas son tecnologías empleadas a menudo en sistemas SAN, donde la muerte del controlador es un problema real.

Para un solo servidor sin otras capacidades de conmutación por error, un segundo controlador no ganará nada: solo costará más dinero y proporcionará al consultor más ganancias.

Adaptador
fuente

¿Necesito un segundo controlador RAID para tolerancia a fallas?

Respuestas: