Todavía obteniendo aacraid: errores de solicitud de cancelación de adaptador de host después de seguir los pasos recomendados

9

Recibo el infame aacraid: error de solicitud de cancelación de adaptador de host con mi nuevo Controlador RAID Adaptec bajo E / S alta. He leído varios foros, incluso Adaptecs , que establecer el valor / sys / block / sdX / device / timeout en 45 solucionará esto. Sin embargo, estoy ejecutando Ubuntu Server 12.04 que ya tiene este valor en 45 por defecto. También probé la siguiente sugerencia, que era actualizar la BIOS de mi mobo a la última, lo cual hice.

No estoy seguro de si alguien más se ha encontrado con este error "aacraid: solicitud de cancelación del adaptador de host" incluso después de seguir estos pasos.

Esto es lo que veo en mi syslog:

kernel: [ 5493.523282] aacraid: Host adapter abort request (4,0,0,0)
Jan  6 20:29:15 server kernel: [ 5493.523309] aacraid: Host adapter abort request (4,0,0,0)
Jan  6 20:29:15 server kernel: [ 5493.523375] aacraid: Host adapter reset request. SCSI hang ?

Heres my uname -a

Linux server 3.2.0-29-generic #46-Ubuntu SMP Fri Jul 27 17:03:23 UTC 2012 x86_64 x86_64 x86_64 GNU/Linux

Gracias a todos,

Jim

Jim
fuente

Respuestas:

1

En caso de que aún no haya resuelto esto, recientemente luché con el mismo problema que rápidamente escaló a la matriz que se cuelga cada 5 minutos durante un par de minutos a medida que aumentaba el IO. Ubuntu por defecto usa el planificador CFQ que no es óptimo para RAID de hardware. Cambie el planificador a noop con:

echo noop > /sys/block/<blockdevice>/queue/scheduler

Personalmente, estoy atascado con el kernel antiguo, pero me han dicho que también actualizar el controlador aacraid más reciente debería solucionar el problema, aunque no puedo verificarlo. Pero aun así, cambia a noop. Dado que sysfs no es permanente, es posible que desee configurar el planificador /etc/rc.localo usar el elevator=parámetro de arranque.

Prestaría atención a otros parámetros del kernel, así como las configuraciones en Ubuntu son valores predeterminados razonables para el hardware más común, pero la mayoría de las veces los servidores necesitan atención especial, independientemente de la distribución en la que se encuentre.

Kev
fuente
1

Si su controlador RAID Adaptec tiene su propio firmware / BIOS, es posible que deba actualizarlo. Tuvimos problemas durante la E / S alta y también obtuvimos "aacraid: solicitud de cancelación del adaptador de host" y vimos un lanzamiento de firmware más nuevo que el actual que decía "Se solucionó un problema por el cual el firmware podía bloquearse durante un alto estrés de E / S". http://download.adaptec.com/pdfs/readme/relnotes_arc_fw-b18937_asm-18837.pdf .

Las notas de la versión anterior enumeran los siguientes modelos de Adaptec: 2045, 2405, 2405Q, 2805, 5085, 5405, 5405Z, 5445, 5445Z, 5805, 5805Q, 5805Z, 5805ZQ, 51245, 51645, 52445).

También tenemos líneas de registro como:

sd 0:0:0:0: timing out command, waited 360s

y

Result: hostbyte=DID_OK driverbyte=DRIVER_TIMEOUT,SUGGEST_OK

Al buscar en línea para ver a otras personas que tienen un problema similar, encontramos otra línea de tarjetas que tenía los siguientes problemas solucionados por firmware que podrían ser relevantes:

Los dos anteriores se aplican a los modelos Adaptec 7805, 7805Q, 78165, 71605E, 71605, 71605Q, 71685, 72405, 8805, 8885, 8885Q y 81605ZQ.

sa289
fuente
Creo que mi controlador se bloqueará cuando use la arcconfutilidad de línea de comandos para consultar el estado de la matriz como parte de nuestros scripts de monitoreo Nagios. Como indican las notas de firmware, el uso arcconfpuede hacer que el controlador se bloquee.
Stefan Lasiewski