Resumen
He estado recibiendo estos mensajes crípticos en syslog desde que instalé un nuevo hardware y no puedo entender cuál es el problema, si es grave o qué hacer al respecto.
Son del nuevo SATA HBA y siguen un patrón. Recibiré varios del primer mensaje seguido de varios del segundo mensaje 5-30 segundos después. Vienen en blobs que se registran todos en el mismo segundo y la cantidad exacta de cada uno varía entre aproximadamente 2 y 35. Pueden transcurrir minutos u horas entre las apariciones de las entradas.
Ejemplo de los dos mensajes:
Jul 13 06:06:23 durandal kernel: [366918.435596] mpt2sas0: log_info(0x31120303): originator(PL), code(0x12), sub_code(0x0303)
Jul 13 06:06:28 durandal kernel: [366923.145524] mpt2sas0: log_info(0x31110d01): originator(PL), code(0x11), sub_code(0x0d01)
Siempre es 0x31120303 seguido de 0x31110d01.
mpt2sas es el controlador para el adaptador de bus de host SATA que estoy usando, pero el contenido del error es demasiado críptico. No me dice cuál es el problema, con qué disco o puerto está o qué tan grave es.
Hardware
Supermicro X9SCL con un Xeon E3-1220 y 8GB de RAM.
HBA Supermicro AOC-USAS2-L8I SAS / SATA basado en LSI SAS2008 conectado a un conjunto de bandeja de disco Supermicro CSE-M35T-1B . Tiene tres Western Digital WD30EZRX y dos Segate ST3000DM001 conectados. Todas las unidades de 3 TB (exactamente el mismo número de sectores en realidad). No hay expansores de puerto en uso.
El HBA, las bandejas de disco y 4 de las unidades son nuevas. Uno de los WD30EZRX ha estado en funcionamiento durante meses, no tuvo problemas con él. Si se había conectado previamente al controlador Intel SATA integrado, lo movió a las bahías de unidades con esta nueva configuración.
Tuve problemas con la necesidad de reiniciar el HBA con frecuencia y obtener un rendimiento realmente horrible. Actualicé el firmware / bios a "Fase 12", la última versión disponible de Supermicro y cambié el tipo a TI (es decir, traspaso, de IR para incursión integrada ya que iba a usar toda incursión de software): 2008IT12.FW. Esa actualización solucionó todos los problemas iniciales y no comencé a recibir los mensajes anteriores hasta más tarde (ver más abajo).
Los primeros cuatro discos que agregué están todos en el primer puerto SFF-8087 (dividido en 4 cables SATA). El último disco que agregué está en el otro puerto, si eso importa.
El único otro disco del sistema contiene el sistema operativo y es un SSD Intel 80GB más antiguo conectado al controlador SATA integrado.
Software
Ubuntu 11.10 (onírico). Linux 3.0.0-14-server x86_64. Usando el controlador mpt2sas que viene con el sistema operativo.
Intentando construir una matriz RAID6 usando Linux md con esos cinco discos. Comenzó con una matriz degenerada de 3 discos, los dos Segates y una de las nuevas unidades WD. Esto fue rápido y salió muy bien, no hubo mensajes en los registros después de que hice la actualización del firmware. Mientras tanto, todavía estoy usando el viejo disco WD en el puerto 0 del mismo controlador.
Se agregó el otro disco WD nuevo a la matriz. La reconstrucción comenzó y ahora recibo esos mensajes en syslog periódicamente. No estoy seguro de cuánto tiempo se supone que toma agregar un disco a la matriz, pero el tiempo estimado (cat / proc / mdstat) varía de miles a decenas de miles de minutos, mucho más de lo que tomó los primeros 3 discos. Entiendo que los discos WD son mucho más lentos; Obtuve diferentes modelos para reducir las posibilidades de fallas múltiples en el disco, y esos fueron los dos modelos más baratos de 3TB.
Notas
SMART no informa ningún problema en ningún disco. No hay errores registrados en ningún disco y ninguna de las estadísticas de falla está cerca del umbral.
Los mensajes registrados solo comenzaron a aparecer después de agregar el último disco, lo que sugiere que uno puede estar teniendo un problema, pero no tengo nada más que lo señale.
Encontré un archivo de encabezado que parece corresponder a los mensajes de registro de este controlador. El primer mensaje parece ser un aborto (código 12) para un "subcódigo" 0303 que no está en la lista. El segundo mensaje es un reinicio (código 11) por una razón que tampoco está clara. Si pudiera determinar qué significan 0303 y 0d01, sería realmente útil.
Sé que 4 discos en un RAID6 de 5 discos es una matriz incompleta. Estoy planeando copiar el contenido del disco viejo al arreglo una vez que termine de integrar el 4to disco y luego agregar el disco viejo al arreglo también.
Wow, una pregunta difícil.
Esto parece indicar que 0x31120303 es un reinicio del bus debido a que uno de sus dispositivos está bajo una carga pesada. También dice que no necesita preocuparse por eso. (Jaja, sí, claro)
Esto indica que estos mensajes de registro están sucediendo porque uno de sus dispositivos está tardando demasiado en responder a los comandos. Esto dice lo mismo y también indica que ocurre bajo una carga pesada.
Si bien esta no es una respuesta completa, con suerte lo guiará en una dirección útil.
fuente
Esto significa que tiene algún error en el disco, es un disco SATA en un controlador SAS de LSI y, debido al error, se anularon todas las solicitudes pendientes.
En la mayoría de los casos, tiene un error medio en el disco que es el desencadenante de este error. Este error en sí mismo no significa un error medio y deberá verificar los registros para obtener otras sugerencias para encontrar cuál es el origen de la falla del disco original.
Versión un poco más elaborada en: http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/
fuente