¿Cómo hacer que SmartD se calle sobre un sector particular fuera de línea fuera de corrección?

18

Tengo un disco en un software RAID-1 de dos discos para el que recientemente apareció un "sector inaccesible sin conexión" en el estado INTELIGENTE.

198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       1

Aparentemente, esto es solo una señal de falla inminente del disco si ocurre con una frecuencia cada vez mayor (y dado que la unidad está duplicada, tampoco existe un gran riesgo de pérdida de datos real). En ese momento, una autocomprobación también falló en algún momento y smartdme envió un correo electrónico para notificarme sobre esto, como debería ser.

Sin embargo, escribir en el sector dañado generalmente hace que el disco use uno de sus sectores libres en lugar de lo que aparentemente hizo porque, dado que ddedité sobre el disco, todas las autocomprobaciones funcionaron bien. Y badblockstampoco encontró razón para quejarse.

Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
[...]
# 5  Extended offline    Completed without error       00%      5559         -
# 6  Short offline       Completed without error       00%      5540         -
# 7  Short offline       Completed: read failure       90%      5524         63273368

El número de sectores defectuosos no disminuyó, aunque no debería, en realidad, ya que el sector roto todavía está allí, aunque sin usar. Sin embargo, smartdcontinúa enviándome correos electrónicos todas las noches:

The following warning/error was logged by the smartd daemon:

Device: /dev/sda [SAT], 1 Offline uncorrectable sectors

Obviamente, esto es extremadamente molesto y adormece mi saludable reflejo de pánico en los smartdcorreos.

El disco es un Western Digital WD20EARS y la smartdversión es 5.41 2011-06-09 r3365.

cristiano
fuente

Respuestas:

23

En algunos discos, es posible que deba recurrir a -U 198+(o -U +?) En el archivo de configuración.

Por favor tenga cuidado. Si no es el autor de la pregunta original, lea detenidamente toda la pregunta. Si usa esto en un disco que no lo necesita, suprimirá advertencias completamente válidas.

Si se especifica ´ + ´, solo se imprime un informe si el número de sectores ha aumentado desde el último ciclo de verificación. Algunos discos no restablecen este atributo cuando se reasigna un sector defectuoso. Ver también ´-v 198, aumentando´ a continuación.

smartd.conf (5)

Por ejemplo, suponga que está utilizando la configuración predeterminada en smartd.conf. En ese caso, hay muchos comentarios en el archivo, pero la única línea sin comentarios está aquí:

# The word DEVICESCAN will cause any remaining lines in this
# configuration file to be ignored: it tells smartd to scan for all
# ATA and SCSI devices.  DEVICESCAN may be followed by any of the
# Directives listed below, which will be applied to all devices that
# are found.  Most users should comment out DEVICESCAN and explicitly
# list the devices that they wish to monitor.
DEVICESCAN

Agregue la opción al final de la línea:

DEVICESCAN -U 198+
sourcejedi
fuente
1
-U 198+Deberías hacerlo. Buen hallazgo!
Michael Hampton
algún examen para esto?
JIV
1
@JIV editado. También agregué una advertencia. Tenga el debido cuidado con sus datos :-).
sourcejedi
0

Hay dos posibilidades de donde provienen estos correos. smartd puede enviar correos por sí mismo, pero lo más probable es que no esté configurado de esta manera, por lo que supongo que estos correos se envían mediante logcheck. Si esta suposición es incorrecta, no tiene que seguir leyendo.

logcheck escanea los archivos de registro y envía correos si cree que debería preocuparse por cualquier cosa que le haya sucedido a / en su sistema.

Tiene la opción de escribir una regla de ignorar logcheck que le dice a logcheck que no envíe mensajes que coincidan con un patrón específico.

Podría (en sistemas basados ​​en Debian) crear un archivo llamado "/etc/logcheck/ignore.d.server/smartd_own" con el siguiente contenido:

^\w{3} [ :0-9]{11} [._[:alnum:]-]+ smartd\[[0-9]+\]: Device: /dev/sda \[SAT\], 1 Offline uncorrectable sectors$

Esto debería filtrar los correos molestos pero escribirle nuevamente si aumenta el contador de sectores no corregibles.

hennr
fuente
smartdenvía los mensajes directamente, desafortunadamente. Sin embargo, aparentemente siempre es una opción cambiar esto. Consideraré esto si no hubiera otra manera, ¡así que gracias!
Christian el
Oh maldición, de todos modos tienes una solución ahora.
hennr