Los discos duros se desconectan por razones desconocidas

11

Tengo 7 sistemas que ejecutan la configuración a continuación. De vez en cuando un disco diferente se desconecta, pero en una inspección más cercana el disco es bueno y no está defectuoso y funciona sin problemas durante al menos otro año. Dado que esto sucede en los 7 sistemas, me parece poco probable que haya una sola parte que esté actuando (por ejemplo, un cable), pero que en cambio es la combinación de algunas de las partes que son ligeramente incompatibles.

El problema es localizar el punto exacto donde está la incompatibilidad.

(Si, en cambio, tiene una solución alternativa en la que puede volver a colocar el disco duro virtual desde la línea de comandos, entonces puede responder /server/523315/re-activate-device -que-se-considera-muerto ).

Hardware del servidor: Dell 1950, Dell R815, Dell R715.

Sistema operativo:

$ uname -a
Linux franklin 3.2.0-4-amd64 #1 SMP Debian 3.2.41-2+deb7u2 x86_64 GNU/Linux

Controlador:

$ lspci |grep 22: 
22:00.0 Serial Attached SCSI controller: LSI Logic / Symbios Logic SAS2008 PCI-Express Fusion-MPT SAS-2 [Falcon] (rev 03)
$ sas2flash -listall
LSI Corporation SAS2 Flash Utility
Version 15.00.00.00 (2012.11.06) 
Copyright (c) 2008-2012 LSI Corporation. All rights reserved

    Adapter Selected is a LSI SAS: SAS2008(B2)   

Num   Ctlr            FW Ver        NVDATA        x86-BIOS         PCI Addr
----------------------------------------------------------------------------

1  SAS2008(B2)     15.00.00.00    0f.00.00.04    07.29.00.00     00:22:00:00

    Finished Processing Commands Successfully.
    Exiting SAS2Flash.

SAS / SATA-expansor Supermicro 4U SAS / SATA Expansor Backplane con un solo chip expansor LSI SAS2X36:

cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/model
SAS2X36         
cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:21/end_device-5:0:21/target5:0:21/5:0:21:0/rev
0717

Discos:

$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/model
Hitachi HDS72404
$ cat /sys/devices/pci0000:20/0000:20:03.0/0000:22:00.0/host5/port-5:0/expander-5:0/port-5:0:1/end_device-5:0:1/target5:0:1/5:0:1:0/rev
A3B0

Discos en un sistema:

$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/model
ST3000DM001-9YN1
$ cat /sys/devices/pci0000:20/0000:20:0b.0/0000:23:00.0/host5/port-5:0/expander-5:0/port-5:0:8/end_device-5:0:8/target5:0:8/5:0:8:0/rev
CC4C

Syslog:

sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw] Unhandled error code
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
sd 5:0:22:0: [sdw]
mpt2sas1: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b9 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694144
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b7 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693632
sd 5:0:22:0: [sdw] Unhandled error code
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Read(16):
sd 5:0:22:0: [sdw] Unhandled error code
 88 00 00 00 00 01 43 e2 f2 d0 00 00 00 10 00 00
end_request: I/O error, dev sdw, sector 5433914064
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
sd 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bd 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982695168
sd 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
md/raid:md4: Disk failure on sdw, disabling device.
md/raid:md4: Operation continuing on 9 devices.
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 b8 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982693888
scsi 5:0:22:0: [sdw] Unhandled error code
scsi 5:0:22:0: [sdw]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
scsi 5:0:22:0: [sdw] CDB: Write(10): 2a 00 3a 92 bc 00 00 01 00 00
end_request: I/O error, dev sdw, sector 982694912
mpt2sas1: removing handle(0x0021), sas_addr(0x500304800182694c)
Ole Tange
fuente
99
+1 por comenzar a hacer las preguntas importantes :)
Sven
Un cable defectuoso que carece de blindaje puede causar problemas con las sumas de verificación. [causando problemas de lectura y escritura]. ¿Has intentado reemplazar los cables?
monksy
Los cables han sido reemplazados por productos conocidos. También esperaría que Linux vuelva a intentar el comando después de restablecer el bus scsi.
Ole Tange
2
Por lo que he logrado desenterrar hasta ahora, los mensajes indican que hay problemas de conectividad, no alertas SMART ... tal vez alguien más con amplia experiencia BiY pueda ayudar. Todo lo que sé es que se mantienen alejados de los discos S-ATA en configuraciones grandes debido a la falta de comandos / colas en comparación con SAS. Les pediré a algunos que echen un vistazo a esto.
pauska
@pauska ¿Puedes elaborar (con enlaces) lo que desenterraste?
Ole Tange

Respuestas:

1

Nos falta información aquí. Está sugiriendo que tiene 24-45 discos por servidor en esta configuración de almacenamiento.

  • ¿Qué controlador (es) específico (s) está utilizando?
  • Debido a la cantidad de discos, es posible que tenga algunas unidades en un gabinete externo. Proporcione la marca / modelo de la carcasa de la unidad externa en uso.
  • ¿Qué modelos de unidad específicos está utilizando? ¿ Todos los discos son unidades de escritorio?
  • ¿Qué sistema de archivos estás usando?
  • Describa el diseño del disco y RAID.
  • ¿Siempre fue un problema o se desarrolló con el tiempo?
  • ¿ Supermicro participa en alguna parte de esta configuración?

Dependiendo de la configuración del gabinete, es posible que se encuentre con tiempos de espera SATA o errores de bus. Esto puede tener un efecto negativo en todas las unidades conectadas al controlador.

Otro problema podría ser una mala negociación de enlace SAS / SATA. Ciertamente, he experimentado esto en algunos expansores SAS cuando las unidades de 1.5Gbps y 6.0Gbps se mezclan en la misma placa.

Por favor proporcione más información.

ewwhite
fuente
Estoy muy interesado en tu pregunta sobre Supermicro. ¿Puedes elaborar?
Halfgaar
@Halfgaar ¿Podría darnos su opinión sobre las otras preguntas que hice?
ewwhite
La publicación original no es mía. Solo tengo curiosidad por esa declaración.
Halfgaar
1
@Halfgaar Ooops ... Bueno, descubrí que Supermicro SAS expandido / backplanes y algunos de los gabinetes JBOD no se comportan de manera predecible en muchas circunstancias. La nota en mi respuesta sobre la reducción de velocidad de SAS / SATA y la negociación de enlaces es algo que solo he experimentado en ciertas revisiones del equipo Supermicro. Tampoco puedo usar sus JBOD para ZFS debido a su comportamiento inestable.
ewwhite