Estoy en un entorno que contiene muchos servidores Supermicro equipados con controladores RAID de hardware Adaptec y LSI MegaRAID . Estos controladores contienen módulos de caché respaldados por batería para ayudar a aumentar el rendimiento de escritura y proteger los datos en tránsito.
Un problema de soporte frecuente es la falla de la batería del controlador RAID. Esto cambia la matriz de escritura no simultánea a escritura simultánea de modo. Claramente, hay un impacto negativo en el rendimiento ya que el sistema funciona con una velocidad de escritura degradada. Esto persiste hasta que se pueda establecer una ventana de tiempo de inactividad para apagar el sistema y reemplazar la batería.
Esta es una operación muy rutinaria para nosotros; casi semanalmente en varios miles de servidores físicos ... Incluso tenemos estaciones de carga para preparar baterías de repuesto para que puedan cambiarse sin un ciclo de carga.
Tal vez me haya estropeado una larga historia con los servidores HP ProLiant y los controladores Smart Array RAID , pero los sistemas HP generalmente tenían una vida útil de la batería de 4 a 6 años. Eventualmente eliminaron el uso de baterías RAID alrededor de 2009. Fueron reemplazadas por módulos de memoria respaldados por supercondensadores (caché de escritura respaldado por flash o FBWC) y no requieren reemplazo, eliminación o un largo ciclo de carga inicial.
Como veo que las fallas de la batería del controlador Adaptec y LSI a veces ocurren en sistemas que han estado en servicio por menos de 12 meses, me pregunto si esto es común en otros entornos.
Si esto es común, ¿cómo manejan esto otros entornos de servidores grandes?
- ¿Algún consejo o truco para manejar el reemplazo de la batería RAID?
- ¿Hay algún parámetro de configuración que pueda ayudar?
- ¿Qué tan perjudicial es esto para las operaciones en su entorno?
- ¿Podría ser un factor el mal enfriamiento del chasis y la temperatura?
- ¿Estamos haciendo algo mal?
- Los controladores Dell PERC están hechos por LSI. ¿Los entornos Dell experimentan la misma vida útil de la batería?
La documentación del producto LSI describe una batería de nueva generación que puede durar más de 1 año en servicio.
Servidor HP ProLiant DL585 G2 con más de 1000 días de funcionamiento y una batería RAID feliz ...
# uptime
05:38:08 up 1031 days, 44 min, 31 users, load average: 0.49, 0.64, 0.99
# hpacucli
Cache Board Present: True
Cache Status: OK
Accelerator Ratio: 50% Read / 50% Write
Total Cache Size: 512 MB
Battery Pack Count: 1
Battery Status: OK
fuente
Respuestas:
Sospecho que su Supermicros está roto de una forma u otra, posiblemente las baterías se sobrecalienten. Los LSI más recientes informarían la temperatura a través de MegaCLI; es posible que desee monitorear este valor en los servidores que necesitan reemplazo.
He visto un par de sistemas Dell y Fujitsu con controladores LSI BBU, ninguno de ellos tenía un reemplazo anual de la batería (excepto que la atornilló por descarga profunda). El tiempo de vida típico ha sido de alrededor de 3 a 5 años.
fuente
La duración promedio de la batería debe ser de 3-5 años. Y no olvide que el FBWC basado en flash también falla. No sé por qué / cómo, pero los reemplazábamos regularmente en nuestros servidores HP. Debería durar más que la batería, pero no tengo estadísticas de nuestros servidores individuales.
La forma estándar de prevenir los efectos de la batería fallida y el aprendizaje de la batería es tener varias baterías. Así es como lo tiene el almacenamiento HP (como HP EVA). Tiene 2 baterías de conexión en caliente y, mientras una tiene poca carga o está siendo reemplazada, el controlador funciona con la restante. No estoy seguro de si es posible tener varias baterías conectadas a SmartArray, pero la
hpacucli
diag
salida sugiere que debería ser compatible:fuente
Mi experiencia con las versiones de IBM de las plataformas LSI en unos pocos cientos de instalaciones es que la batería promedio apenas dura 2 años, y el supercap no es mejor, algunos de los cuales se pueden arreglar con una actualización de firmware, pero LSI simplemente no lo tiene Correcto. He tenido alrededor del 75% de fallas de supercap en los primeros 2 años.
fuente