Error de disco de hardware en ESX Guest, en una unidad respaldada por vmfs ... ¿cómo es esto posible?

8

¿Cómo puede un huésped dentro de ESX encontrar problemas como este?

[ 40.601502] end_request: critical target error, dev sdg, sector 430203456
[ 40.601563] sd 2:0:6:0: [sdg] Unhandled sense code
[ 40.601582] sd 2:0:6:0: [sdg] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
[ 40.601622] sd 2:0:6:0: [sdg] Sense Key : Hardware Error Sense Key : Hardware Error [current] [current] 
[ 40.601661] sd 2:0:6:0: [sdg] Add. Sense: Internal target failureAdd. Sense: Internal target failure
[ 40.601695] sd 2:0:6:0: [sdg] CDB: Write(10)Write(10):: 2a 2a 00 00 02 19 64 a4 05 62 c0 80 00 00 00 00 40 40 00 00
  • físicamente los datos están en vmfs almacenados en una matriz raid6 (adaptec 5805), lo que parece feliz
  • Además, el host ESX no registra ningún problema
  • el tamaño del disco informado por el invitado parece el mismo que el tamaño del disco provisto
  • a través de esx, el invitado tiene 9 'unidades' iguales conectadas y solo 2 exhiben este problema
Tobi Oetiker
fuente
1
¿Quizás un error en la capa de emulación de E / S? ¿Has intentado cambiar el tipo de controlador SCSI del invitado para ver si cambia el comportamiento? ¿Acceder al sector especificado reproduce el error? Úselo dd if=/dev/sdg bs=512 skip=430203455 count=1para volver a leer o simplemente badblocks -w -b 512 /dev/sdg 430203457 430203455para hacer un ciclo de lectura-pruebaescritura-reescritura si te sientes valiente.
the-wabbit
¿Qué versión de kernel tienes allí? Actualice su kernel y vea si el error aún aparece.
Sacx

Respuestas:

1

He experimentado algo similar en el volumen de copia de seguridad para MS SQL en Win 2008 guest bajo ESX 4.0: es un volumen sin procesar expuesto desde el archivador de NetApp.

El sistema operativo invitado informa (y aún informa) sectores defectuosos en ese volumen.
Creo que esto sucedió debido a demasiadas operaciones de escritura de E / S, tiempo de espera temporal o sobrecarga del archivador.
No más sectores malos reportados. El "lavado de disco" de NetApp dice que todo está bien. No se informaron errores del archivador.

Pero de todos modos vamos a recrear este volumen y ver si soluciona esto.

¿Qué tal sus otros volúmenes en este archivador? ¿Puede verificar este volumen con el comando "badblocks / dev / sdg"? (precaución: sobrecarga de lectura enorme)

TooMeeK
fuente
1

Era un problema de hardware / firmware después de todo. Mientras que el Adaptec 5805 (con el último firmware) informaba que todos los volúmenes RAID6 estaban en estado óptimo, también informaba que un volumen contenía 'Franjas fallidas'. El efecto de esto parece ser que esa parte del volumen RAID6 se vuelve ilegible (causando los errores citados en la pregunta). ESX no parece ver esto directamente, pero la ejecución dd if=/dev/zero of=file-on-damaged-volumedirecta en la consola ESXi terminó en un error de E / S mientras todavía había mucho espacio en el volumen.

Ninguna cantidad de arcconf cabaña de verificación / verificación_fix se ejecuta en volúmenes y los dispositivos físicos fueron capaces de detectar o arreglar nada ... Finalmente, moví todos los datos fuera del volumen y los volví a crear en el nivel adaptec. Ahora todo está bien, pero mi confianza en la capacidad de Adaptec para proteger mis datos está gravemente dañada.

Tobi Oetiker
fuente
1
Esto es bastante coherente con el procedimiento Sun / Oracle para tales situaciones . También hay un artículo de Preguntas frecuentes de Adaptec sobre rayas defectuosas que brinda información básica sobre cómo ocurren las rayas malas y qué se puede hacer para prevenirlas.
the-wabbit
Sí, el artículo de Sun / Oracle me puso en el camino correcto (triste). Tuvimos un disco fallido en esta matriz, pero raid6, por lo que incluso entonces hubo redundancia, ninguna de las comprobaciones posteriores de los medios reveló ningún error con los discos restantes ... también el controlador adaptec tiene una BBU, así que realmente no veo alguna excusa para este comportamiento :-( Nunca tuve problemas con nuestros controladores de areca.
Tobi Oetiker
Casi nunca uso controladores Adaptec y mantengo principalmente el almacenamiento LSI, pero esta es la primera vez que me encuentro con "rayas defectuosas". Me pregunto si esto es algo muy específico para la implementación de Adaptec.
the-wabbit