Verifique si hay errores en el disco duro / signos de falla en CentOS Server

14

¿Cuál es la mejor manera de verificar si hay errores de HDD y signos tempranos de falla en CentOS?

inac
fuente
1
¿Qué tan frecuentes deben ser los controles? ¿diario semanal?
inac

Respuestas:

3

Recomendaría instalar smartmon ( http://sourceforge.net/apps/trac/smartmontools/wiki ) en su máquina. Este es un software que puede verificar el estado de sus discos; de lo contrario, se verificará / var / log / messages o / var / log / syslog para cualquier mención de errores scsi

Pablo
fuente
smartmon lo parece, aunque sus estadísticas mencionan que capturaría solo el 60% de las unidades que fallan ... si configuro smartmon para escanear diariamente, ¿esto realmente ayudaría al disco duro a morir más rápido: es un seagate 7200.10?
inac
@inac smartmon ayudará a los discos duros a morir más rápido? ¿Dónde leíste esto? Por favor agregue una URL.
030
2
dmesg

El núcleo registrará cualquier mensaje de diagnóstico sobre dispositivos de E / S, por lo que puede verificar esos mensajes con el comando dmesg.

Banjer
fuente
pero tendrías que ejecutar esto manualmente o cronjob dmesg dump en vi?
inac
ya sea. puede crear un script para volcarlo con "dmesg> dmesg.dump.txt" y ejecutarlo diariamente con cron.
Banjer
1

Puede ejecutar fsck en el dispositivo para verificar si hay errores.

anticuado
fuente
0

Como dice Paul, los registros SMART son un buen lugar para verificar.

También recomendaría ejecutar BadBlocks . Si tiene una tarjeta RAID, es posible que tenga que usar el monitoreo en eso.

Dentrasi
fuente
0

El monitoreo inteligente es una buena manera. Como root, smartctl -a /dev/hdadonde hda es la unidad que desea ... podría ser hdb, sda, etc. También recomiende configurar su dirección de correo electrónico en / etc / alias como la persona que debería recibir el correo de root.

Sin embargo, esa es una respuesta muy vaga. Si tiene un servidor hecho por cualquiera de los grandes fabricantes (Dell, HP, etc.), es probable que haya mejores capacidades de monitoreo disponibles.

churnd
fuente
0

Puede probar la comprobación completa de la partición / dev / sda1 (por ejemplo) como

fsck -f /dev/sda1

o intente una prueba no descriptiva completa de lectura-escritura de una partición dada

badblocks -vn /dev/sda1
Liibo
fuente
/dev/sda1 is mounted; it's not safe to run badblocks!
030
e2fsck: Cannot continue, aborting.
030
@ 030 Descenso a un nivel de ejecución donde el disco principal no está montado.
awiebe