¿Cómo hago para que mis servidores HP me envíen un correo electrónico cuando falla una unidad?

11

Idealmente, con la instalación más simple posible y sin necesidad de reiniciar los servidores. Sobre todo por DL380 G5'ssi ayuda.

DrZaiusApeLord
fuente
Es una pena que no sean G7, o podría usar HP Insight Manager.
Tom O'Connor
¿Sus servidores ejecutan Windows o Linux?
Tom O'Connor
¿Qué sistemas operativos está ejecutando en estos servidores?
ewwhite
Todos son 2003 o 2008, tanto vainilla como R2. Jugué con SIM pero no pude hablar con mis G5.
DrZaiusApeLord
SIM aún debería ser compatible con G5 ProLiants. ¿Tenía los agentes instalados cuando lo intentó antes?
ewwhite

Respuestas:

16

Esto depende ligeramente de los sistemas operativos que esté ejecutando en los servidores, pero en general, es posible obtener alertas de los servidores HP ProLiant y los controladores Smart Array RAID.

La lista completa de controladores y soporte de software para sus sistemas DL380 G5 se encuentra aquí .

SNMP y una solución de monitoreo es el mejor enfoque ... Pero puede aumentar eso con algunas de las herramientas de HP. HP ofrece HP Systems Insight Manager , que está disponible para descargar y también viene con los servidores. Esto es ideal para colecciones de servidores. Si está buscando alertas únicas sin crear una infraestructura de administración o monitoreo, simplemente puede instalar los Agentes de administración de HP (también conocido como Paquete de soporte ProLiant ).

Para sistemas Linux independientes, haré que los agentes envíen trampas por correo electrónico. Normalmente configuraré el paquete de soporte con valores predeterminados o un paquete personalizado , luego editaré /opt/hp/hp-snmp-agents/cma.confy cambiaré la trapemaillínea para que apunte a la dirección del destinatario:

########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
#             trapemail /usr/bin/logger
#       will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' [email protected]

Si está ejecutando Linux y no desea instalar el paquete completo de administración de HP, puede desarrollar un script alrededor de la utilidad cciss_vol_status para consultar el estado del controlador / disco. Consulte también: Instalación de agentes de HP en OpenFiler

ewwhite
fuente
¿Alguna forma elegante de probar una alerta por una falla de la matriz RAID, que no sea sacar una unidad de la ranura? Tengo un par de ProLiant DL360 G7servidores y HP SIM configurado para monitoreo.
Banjer
No que yo sepa. Los agentes de Insight definitivamente funcionan. Si puede ver el estado de la matriz a través de la utilidad hpacucli y sabe que está recibiendo alertas en HP SIM, creo que es justo suponer que las cosas funcionarán.
ewwhite
3

Usé el programa ligero que @ewwite mencionó en su respuesta: cciss_vol_status

Si sigue las instrucciones de INSTALACIÓN adjuntas, se coloca el script /usr/local/bin/cciss_vol_status.

Aquí hay un script de contenedor que utilizo para grep la salida de cciss_vol_status, y enviar un correo electrónico si alguna matriz tiene un estado de FAILED.

#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers.  Send an email
# alert if any volumes have a FAILED status.
#
status=`/usr/local/bin/cciss_vol_status /dev/sd*`

# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_host=`hostname`
# To: email
_toemail=root

# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}

if echo $status | grep -q FAILED
then
    # make sure we haven't sent a notification in the last X minutes
    if test `find ${lockfile} -mmin +${_notification_freq}`
    then
        echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_host}" ${_toemail}

        # update lock file mod time
        /bin/touch ${lockfile}
    fi
fi

Llame al script anterior en cron. Corro el cheque cada dos minutos:

*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh

Usamos HP System Insight Manager para verificar si nuestros HP están en funcionamiento, pero nada más que eso. Descubrí que el agente de Linux es excesivo para nosotros, ya que tenemos otras soluciones de monitoreo implementadas, por lo que este script anterior sirve bien para su propósito específico.

ACTUALIZAR

Solo un consejo de solución de problemas en caso de que te encuentres con esto. Esta secuencia de comandos resultó útil esta mañana cuando recibí un correo electrónico sobre una matriz fallida con:

Límite de caché sucio alcanzado

El dispositivo fue de solo lectura y no fue visible en /proc/partitions. Reinicié el servidor y vi estos mensajes en el arranque:

Unidad (es) lógica (s) deshabilitada debido a la posible pérdida de datos. Seleccione "F1" para continuar con las unidades lógicas deshabilitadas. Seleccione "F2" para aceptar la pérdida de datos y volver a habilitar las unidades lógicas.

Seleccioné F2 y el RAID estaba bien y montado en el arranque.

Banjer
fuente
1

Instalar smartmontools. Te envía ANTES de que falle una unidad.

Stephan
fuente
2
~ 30% del tiempo. SMART no es una bala de plata.
HopelessN00b