¿Necesito RAID tarjetas Fusion-io?

27

¿Puedo ejecutar de manera confiable con una sola tarjeta Fusion-io instalada en un servidor, o necesito implementar dos tarjetas en una configuración RAID de software?

Fusion-io no es muy claro (casi engañoso) sobre el tema al revisar sus materiales de marketing Dado el costo de las tarjetas, tengo curiosidad por cómo otros ingenieros las implementan en escenarios del mundo real.

Planeo usar la tarjeta de 1.2TB Fusion-io ioDrive2 de la marca HP para una solución de base de datos independiente patentada que se ejecuta en Linux. Esta es una configuración de servidor único sin una opción real de alta disponibilidad. Existe una replicación asincrónica con un RPO de 10 minutos que refleja los registros de transacciones a un segundo servidor físico.

Tradicionalmente, especificaría un servidor HP ProLiant de alta gama con los mejores pasos de CPU para esta aplicación. Necesito ir a SSD, y puedo adquirir Fusion-io a un precio más bajo que el SSD SAS empresarial para la capacidad requerida.

  • ¿Necesito ejecutar dos tarjetas ioDrive2 y unirlas con el software RAID (md o ZFS), o es innecesario?
  • ¿Debería preocuparme más por la falla de Fusion-io que por una falla en el controlador RAID o una falla en la placa base?
  • Los administradores del sistema les gusta RAID. ¿Requiere esto una mentalidad diferente, dada la interfaz diferente y el nivel de desgaste en la tarjeta / corrección de errores disponibles en este factor de forma?
  • ¿Cuál es la tasa de falla de estos dispositivos?

Editar: Acabo de leer un documento técnico de confiabilidad Fusion-io de Dell, y parece que "las tarjetas Fusion-io tienen muchas redundancias internas ... ¡No se preocupe por RAID!" .

ewwhite
fuente
¿La incursión de software y / o el bus PCIe incluso lograrán mantenerse al día si está presionando el límite de IOPS? Sinceramente, no tengo idea, pero vale la pena echarle un vistazo.
pauska
1
El bus PCIe se mantendrá al día. El software RAID (si lo NECESITO ) estará basado en ZFS, por lo que es capaz. He pedido dos tarjetas por ahora, pero la literatura de Fusion-io parece decir, "una tarjeta es lo suficientemente buena".
ewwhite
Incluso ZFS necesita usar ciclos de CPU para reflejar los datos, por lo que agrega complejidad y latencia, pero es imposible saber cuánto afectaría a su aplicación específica. Fusion parece estar muy orgulloso de su bajo costo de CPU en el reflejo interno / protección ..
pauska

Respuestas:

16

En última instancia, todo se reduce a su modelo de falla. ¿Cuál es el impacto de una falla?

Históricamente, siempre hemos RAID todo porque el costo de hacerlo ha sido insignificante. ¿Otros $ 500 por una unidad de espejo? Vale la pena el costo sin siquiera considerarlo.

Cuando se habla de otros $ 10K + para activar la duplicación, necesita un poco más de consideración.


No, no necesitas reflejar

Las tarjetas Fusion-io tienen bastante buena redundancia interna. Este no es el tipo de hardware donde su disco es un solo chip. En la mayoría de las situaciones en las que he observado fallas, ha sido un problema de firmware que ha afectado a ambos miembros de un espejo, por lo que RAID no habría importado.

Piense en una tarjeta Fusion-io como un controlador RAID con discos detrás. ¿Estás bien con una configuración de controlador único? Probablemente. Trátelo así.

En muchas configuraciones en las que implementaría unidades Fusion-io, tendrá otras protecciones integradas (redundancia a nivel de nodo), por lo que no tiene tanto sentido.


Sí, necesitas reflejar

RAID aumenta su disponibilidad . ¿Necesita disponibilidad máxima absoluta a pesar del costo? ¿Es costoso el costo de una falla y el posible tiempo de inactividad? Anímate y duplica las unidades. En una configuración estadísticamente grande, tendrá fallas en las unidades a pesar de las salvaguardas internas.

MikeyB
fuente
Actualización: he reflejado las tarjetas Fusion-io en las instalaciones donde el cliente estaba de acuerdo con el gasto adicional (y para facilitarme a mí mismo para implementar el producto). He implementado varias instalaciones de tarjeta única en otras situaciones. Todo ha estado bien hasta ahora ...
ewwhite
18

La redundancia en el dispositivo debería funcionar bien para fallas de los chips flash, de forma análoga a RAID entre todos los componentes que realizan almacenamiento de datos real.

¿Debería preocuparme más por la falla de Fusion-io que por una falla en el controlador RAID o una falla en la placa base?

Una falla de todo el dispositivo sería bastante análoga a la pérdida de un controlador RAID o placa base: estaría aproximadamente tan preocupado por la tarjeta Fusion-io como estos otros componentes de punto único de falla, aunque no lo hago ' No tenga experiencia con los dispositivos a gran escala para poder comparar las tasas de falla utilizando datos duros.

¿Necesito ejecutar dos tarjetas ioDrive2 y unirlas con el software RAID (md o ZFS), o es innecesario?

Agregar redundancia además de lo que el dispositivo ya tiene (por ejemplo, RAID de software entre múltiples tarjetas Fusion-io) sería muy similar a hacer RAID de software entre dos grupos de RAID de hardware en dos controladores RAID diferentes; podría valer la pena para los sistemas que garantizan una redundancia extrema para eliminar un solo punto adicional de falla, pero no para implementaciones comunes (¿un RPO de 10 minutos en un espejo debería ser lo suficientemente bueno para la mayoría de las aplicaciones?).

A los administradores de sistemas les gusta RAID. ¿Requiere esto una mentalidad diferente, dada la interfaz diferente y el nivel de desgaste en la tarjeta / corrección de errores disponibles en este factor de forma?

Sí, eso creo. Básicamente, está obteniendo un dispositivo que es como un controlador RAID y un montón de dispositivos de almacenamiento detrás de él en un solo paquete. Definitivamente es tentador preocuparse por poner sus datos confidenciales en un solo dispositivo, pero uno debe tener cierto nivel de confianza en la redundancia interna del dispositivo ... Lo que debería ser contrarrestado con una comprensión saludable de "RAID no es un concepto de " copia de seguridad ": siempre esté preparado para la falla de un componente redundante, o para que un usuario elimine los datos que contiene, con buenas copias de seguridad.

Shane Madden
fuente
13

Como saben, hemos usado su kit por un tiempo, tanto en configuraciones RAID como no RAID, desearía tener alguna experiencia de falla para brindarles, pero no la tengo. No hemos tenido fallas con las que RAID hubiera ayudado y sus características de resistencia integradas solo están mejorando. Además, la función principal para la que los usamos ahora se escala / agrupa horizontalmente, por lo que tenemos aún menos razones para RAID. Grandes cartas, sin embargo, las recomiendo.

Chopper3
fuente
Un buen punto de datos. Sin embargo, no puedo decir si agregar una capa RAID es exagerado o no.
ewwhite
1
Veo que la tecnología no es el punto de definición aquí, ya sea que sus datos necesitan la capacidad de soportar la pérdida de una sola tarjeta FusionIO o no, solo piense en ellos como discos rápidos y veloces, eso no cambia si usted puede vivir sin RAID o no correcto?
Chopper3
Ligeramente ... Un enfoque tradicional sería utilizar SSD SAS empresariales en un RAID 1 + 0. Eso es solo aplicar el mismo estándar utilizado para girar discos a SSD. Pero eso también supone una capacidad de intercambio en caliente. Eso no se aplica a una tarjeta basada en PCIe, especialmente cuando me veo obligado a usar RAID de software para lograr esto. Dado que Fusion-io también tiene el beneficio de una mejor nivelación y monitoreo del desgaste, estoy tratando de comprender los modos de falla realistas involucrados aquí. ¿Trato el Fusion-io como un disco o un controlador? No pondrías dos tarjetas Smart Array en un ProLiant para servir discos internos, ¿verdad?
ewwhite
2
@ewwhite Es posible que tenga dos controladores RAID con discos diferentes, y RAID1 entre los discos de los controladores, si necesita poder manejar la falla de un controlador RAID. Yo diría que trate la tarjeta Fusion-io como un controlador RAID en términos de su planificación de redundancia.
Shane Madden
@ewwhite Si miras la redacción que utilicé, puedes leer entre líneas que tuvimos una interrupción en un solo servidor equipado con FusionIO: tuvimos un mobo go pop, un DL580 G6 (tenemos muy pocos) y algo Le sucedió a un banco entero de memoria y eliminó a quién junta. En este escenario fue RAID 1'ed pero obviamente eso no importó. Por supuesto, tenga en cuenta que PCIe puede ser intercambiable en caliente, puede ser un faff masivo pero puede funcionar bien.
Chopper3
9

No estoy familiarizado con Fusion directamente, pero tengo algo de experiencia en SSD PCIe para trabajar.

Con los que trabajo presentan cuatro LUN diferentes para el sistema operativo, y trato la tarjeta PCIe como un HBA. Si quiero RAID, duplicaría dos LUN juntos usando el sistema operativo. Esto me permite una solución de una tarjeta para la redundancia. Sin embargo, si la tarjeta falla por completo, sigo en un arroyo. No sé si ioDrive hace lo mismo.

sysadmin1138
fuente
Esta unidad particular presentará un dispositivo de bloque.
ewwhite
1
ioDrives presenta uno o dos dispositivos independientes. Si presenta dos, son físicamente dos dispositivos separados en una tarjeta, cada uno con su propia protección interna. Compare con, digamos, el Intel 910 que presenta cuatro dispositivos, cada uno de los cuales debe tratarse como un SSD.
MikeyB
5

Compré 6 de las tarjetas de 1.2tb en los últimos dos meses. Uno de ellos ya ha fallado. Así que los atacaría absolutamente. Utilicé el espejo de disco activo de Windows. La unidad falló con el mensaje "falta el mapa LEB". Me dijeron que tendría que ser cambiado. Pero para obtener la aprobación de la RMA, tendría que tomar fotografías en ambos lados de la tarjeta fallida (lo que requiere un corte de producción para sacar la tarjeta). Y luego me dijeron que la tarjeta de reemplazo estaba agotada sin eta. Por lo tanto, es posible que desee pensar bastante antes de comprarlos.

usuario229000
fuente
Gracias por compartir tu experiencia. Seguí adelante y desplegué estas tarjetas de 1.2TB en pares reflejados. Estoy usando HP SKU, así que tengo mi contrato de soporte de HP para manejar RMA / reemplazo.
ewwhite