Hardware RAID controlador caché batería falla frecuencia / vida útil?

14

Estoy en un entorno que contiene muchos servidores Supermicro equipados con controladores RAID de hardware Adaptec y LSI MegaRAID . Estos controladores contienen módulos de caché respaldados por batería para ayudar a aumentar el rendimiento de escritura y proteger los datos en tránsito.

Un problema de soporte frecuente es la falla de la batería del controlador RAID. Esto cambia la matriz de escritura no simultánea a escritura simultánea de modo. Claramente, hay un impacto negativo en el rendimiento ya que el sistema funciona con una velocidad de escritura degradada. Esto persiste hasta que se pueda establecer una ventana de tiempo de inactividad para apagar el sistema y reemplazar la batería.

Esta es una operación muy rutinaria para nosotros; casi semanalmente en varios miles de servidores físicos ... Incluso tenemos estaciones de carga para preparar baterías de repuesto para que puedan cambiarse sin un ciclo de carga.

Tal vez me haya estropeado una larga historia con los servidores HP ProLiant y los controladores Smart Array RAID , pero los sistemas HP generalmente tenían una vida útil de la batería de 4 a 6 años. Eventualmente eliminaron el uso de baterías RAID alrededor de 2009. Fueron reemplazadas por módulos de memoria respaldados por supercondensadores (caché de escritura respaldado por flash o FBWC) y no requieren reemplazo, eliminación o un largo ciclo de carga inicial.

Como veo que las fallas de la batería del controlador Adaptec y LSI a veces ocurren en sistemas que han estado en servicio por menos de 12 meses, me pregunto si esto es común en otros entornos.

Si esto es común, ¿cómo manejan esto otros entornos de servidores grandes?

  • ¿Algún consejo o truco para manejar el reemplazo de la batería RAID?
  • ¿Hay algún parámetro de configuración que pueda ayudar?
  • ¿Qué tan perjudicial es esto para las operaciones en su entorno?
  • ¿Podría ser un factor el mal enfriamiento del chasis y la temperatura?
  • ¿Estamos haciendo algo mal?
  • Los controladores Dell PERC están hechos por LSI. ¿Los entornos Dell experimentan la misma vida útil de la batería?

La documentación del producto LSI describe una batería de nueva generación que puede durar más de 1 año en servicio. ingrese la descripción de la imagen aquí

Servidor HP ProLiant DL585 G2 con más de 1000 días de funcionamiento y una batería RAID feliz ...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK
ewwhite
fuente
2
Solo una pista: la última generación de controladores Adaptec también usa supercaps / flash en lugar de baterías.
Sven
Oh, soy consciente de que todos los fabricantes tienen soluciones basadas en supercap ahora , pero dada la huella de instalación existente, es difícil hacer un cambio amplio en la infraestructura.
ewwhite
2
Nunca he hecho esto (probablemente porque suena como una mala idea y no he tenido el problema con tanta frecuencia como usted), pero podría intentar reemplazar una batería RAID en un servidor de prueba mientras está encendido. Deslícela, retire la cubierta, desconecte la batería defectuosa y conecte la buena, luego vuelva a colocarla en el bastidor ... Si todo va bien, tiene un nuevo proceso de reemplazo de batería que no implica tiempo de inactividad.
Agosto
2
@August Uhm, a medida que avanzan los procedimientos riesgosos, esto suena bastante alto en la lista "OMG DONDE FUERON MIS DATOS".
Dan
2
Sí, claro que sí ... Estoy de acuerdo en que suena como una idea horrible, pero dada la situación y el requisito de no tener tiempo de inactividad, podría valer la pena intentarlo en un servidor de prueba (o treinta servidores de prueba ...) para ver si es así. posible. ¿Cuál es otra opción además de rehacer la infraestructura para no depender de baterías RAID individuales en miles de servidores?
Agosto

Respuestas:

9

Sospecho que su Supermicros está roto de una forma u otra, posiblemente las baterías se sobrecalienten. Los LSI más recientes informarían la temperatura a través de MegaCLI; es posible que desee monitorear este valor en los servidores que necesitan reemplazo.

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

He visto un par de sistemas Dell y Fujitsu con controladores LSI BBU, ninguno de ellos tenía un reemplazo anual de la batería (excepto que la atornilló por descarga profunda). El tiempo de vida típico ha sido de alrededor de 3 a 5 años.

el wabbit
fuente
44
Agregaría que a menos que el sistema EXPLÍCITAMENTE autorice el reemplazo en caliente de la BBU RAID, no lo intentaría. Nunca he visto un sistema que requiera el reemplazo anual de la batería de caché RAID. 3-5 años es una vida útil típica.
voretaq7
¡Creo que lo conseguiste!
ewwhite
1

La duración promedio de la batería debe ser de 3-5 años. Y no olvide que el FBWC basado en flash también falla. No sé por qué / cómo, pero los reemplazábamos regularmente en nuestros servidores HP. Debería durar más que la batería, pero no tengo estadísticas de nuestros servidores individuales.

La forma estándar de prevenir los efectos de la batería fallida y el aprendizaje de la batería es tener varias baterías. Así es como lo tiene el almacenamiento HP (como HP EVA). Tiene 2 baterías de conexión en caliente y, mientras una tiene poca carga o está siendo reemplazada, el controlador funciona con la restante. No estoy seguro de si es posible tener varias baterías conectadas a SmartArray, pero la hpacucli diagsalida sugiere que debería ser compatible:

Battery 1 firmware is up to date.
Battery 2 not present.
Battery 3 not present.

Battery Status:    Battery 1      Battery 2      Battery 3
---------------    ---------      ---------      ---------
Present:              YES             NO             NO
Responding:           YES            N/A            N/A
PIC Revision:          52              .              .         
Status:              0x80              .              .         
Extra Status:        0x01              .              .         
   Enabled:         FALSE              .              .         
   Charging:        FALSE              .              .         
   Good:             TRUE              .              .         
   Open:            FALSE              .              .         
   Shorted:         FALSE              .              .         
   Sample Err:      FALSE              .              .         
Control:             0x00              .              .         
Load Current: (0x70) 24.6mA            .              .    
   Per Memory Chip:  4920uA            .              .         
Voltage:      (0xae) 5640mV            .              .         
Capacity:             100%             .              .         
Depletion count:     0x00              .              .         
Marki555
fuente
1

Mi experiencia con las versiones de IBM de las plataformas LSI en unos pocos cientos de instalaciones es que la batería promedio apenas dura 2 años, y el supercap no es mejor, algunos de los cuales se pueden arreglar con una actualización de firmware, pero LSI simplemente no lo tiene Correcto. He tenido alrededor del 75% de fallas de supercap en los primeros 2 años.

marca
fuente