Tengo un disco en un software RAID-1 de dos discos para el que recientemente apareció un "sector inaccesible sin conexión" en el estado INTELIGENTE.
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 1
Aparentemente, esto es solo una señal de falla inminente del disco si ocurre con una frecuencia cada vez mayor (y dado que la unidad está duplicada, tampoco existe un gran riesgo de pérdida de datos real). En ese momento, una autocomprobación también falló en algún momento y smartd
me envió un correo electrónico para notificarme sobre esto, como debería ser.
Sin embargo, escribir en el sector dañado generalmente hace que el disco use uno de sus sectores libres en lugar de lo que aparentemente hizo porque, dado que dd
edité sobre el disco, todas las autocomprobaciones funcionaron bien. Y badblocks
tampoco encontró razón para quejarse.
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
[...]
# 5 Extended offline Completed without error 00% 5559 -
# 6 Short offline Completed without error 00% 5540 -
# 7 Short offline Completed: read failure 90% 5524 63273368
El número de sectores defectuosos no disminuyó, aunque no debería, en realidad, ya que el sector roto todavía está allí, aunque sin usar. Sin embargo, smartd
continúa enviándome correos electrónicos todas las noches:
The following warning/error was logged by the smartd daemon:
Device: /dev/sda [SAT], 1 Offline uncorrectable sectors
Obviamente, esto es extremadamente molesto y adormece mi saludable reflejo de pánico en los smartd
correos.
El disco es un Western Digital WD20EARS y la smartd
versión es 5.41 2011-06-09 r3365.
fuente
-U 198+
Deberías hacerlo. Buen hallazgo!Hay dos posibilidades de donde provienen estos correos. smartd puede enviar correos por sí mismo, pero lo más probable es que no esté configurado de esta manera, por lo que supongo que estos correos se envían mediante logcheck. Si esta suposición es incorrecta, no tiene que seguir leyendo.
logcheck escanea los archivos de registro y envía correos si cree que debería preocuparse por cualquier cosa que le haya sucedido a / en su sistema.
Tiene la opción de escribir una regla de ignorar logcheck que le dice a logcheck que no envíe mensajes que coincidan con un patrón específico.
Podría (en sistemas basados en Debian) crear un archivo llamado "/etc/logcheck/ignore.d.server/smartd_own" con el siguiente contenido:
Esto debería filtrar los correos molestos pero escribirle nuevamente si aumenta el contador de sectores no corregibles.
fuente
smartd
envía los mensajes directamente, desafortunadamente. Sin embargo, aparentemente siempre es una opción cambiar esto. Consideraré esto si no hubiera otra manera, ¡así que gracias!