kernel: error de E / S de confirmación de diario

9

Tengo algunos problemas con un servidor Dell 1950. Estoy instalando RHEL 4.6 junto con Oracle y algún otro software aquí.

Recibo un mensaje de error al azar que dice "kernel: journal commit I / O error" en mi sesión ssh y en el monitor que he conectado al servidor. Veo un error que dice "Error EXT3-fs (dispositivo sda5) en start_transaction: el diario ha abortado ".

Ha sucedido varias veces, pero nunca en el mismo punto durante la instalación. En realidad, esta última vez el sistema estaba en funcionamiento y solo estaba tratando de importar una base de datos a Oracle.

Esto ha sucedido en varios discos duros, así que estoy bastante seguro de que ese no es el problema. Esto me hace pensar que el controlador de banda está yendo mal.

¿Qué piensan ustedes?

** ACTUALIZACIÓN **

Estoy bastante seguro de que era un mal disco duro. Lancé otra unidad en el servidor y ha estado funcionando durante aproximadamente 48 horas sin problemas.

jasondewitt
fuente

Respuestas:

9

He visto esos errores antes, pero no durante el proceso de instalación.

Significa que el disco tiene suficientes errores que el sistema operativo lo llevó al modo de solo lectura. Si pudiera encontrar los registros completos, probablemente habría algunos errores de E / S que se volvieron a intentar y funcionaron antes de los errores de falla completos que vio. Algo con bloques reales mencionados.

Es un error del sistema de almacenamiento. Definitivamente es la tarjeta RAID, las unidades en la matriz RAID, los cables de la tarjeta a las unidades, el plano posterior al que se conectan las unidades, la ranura a la que está conectada la tarjeta RAID, la fuente de alimentación para los discos duros o algo más en entre la CPU y los bloques de almacenamiento reales.

freiheit
fuente
2

Se me ocurren tres posibilidades:

  1. Hay problemas de memoria (a menudo causan bloqueos "aleatorios"). Si tiene una RAM ECC allí, entonces obviamente es menos probable.

  2. Hay algún problema con el autobús. Hace unos años, tuve el mismo problema con un controlador APIC roto en una placa base Tyan dual Opteron. Hubo otras entradas de registro que lo insinuaron, pero la mayor parte de los síntomas fueron daños aleatorios en unidades de disco con remontes automáticos de solo lectura. En mi caso, sabía que no estaba relacionado con el disco porque era una caja FC RAID externa y estaba bien.

  3. El controlador RAID es una litera.

Esto está en el orden en que consideraría los problemas.

Alexandre Carmel-Veilleux
fuente
Probablemente no problemas de memoria; es más probable que causen fallas seguras y más errores aleatorios, no se limiten solo al almacenamiento.
freiheit
Cierto. Pero en una situación de instalación o arranque temprano, el uso masivo de la memoria es la memoria caché del búfer, por lo que los problemas tienden a aparecer allí primero. Una vez que la máquina ha estado ejecutando alguna carga durante un tiempo, el proceso del usuario domina la E / S de memoria y, por lo tanto, la prevalencia de la falla predeterminada. Dicho esto, un PE1950 debe tener procesadores Xeon y ram ECC para que la RAM pueda detectarlo e informarlo a Linux.
Alexandre Carmel-Veilleux
2

Podría ser que el controlador RAID se dañe como dijo (pruebe un repuesto si tiene uno). Podría ser el controlador del controlador (verifique si hay controladores alternativos si están disponibles, incluso si el rendimiento es peor, es bueno tener un punto de referencia .) Podría ser el núcleo (aunque es menos probable que en RHEL, esté bastante bien probado.) Podría ser una RAM defectuosa que estropee el caché de bloques.

Sin embargo, un problema de hardware es la causa más probable, según el comportamiento de error aparentemente aleatorio.

Mihai Limbăşan
fuente
2

Verifique que el disco no esté lleno, en particular la partición raíz. Use df para ver el uso del disco del sistema de archivos:

df -h

Busque particiones cercanas o iguales al 100% de utilización

Peter H
fuente
-5

tratar:

apagado -rF ahora


fuente