¿Cómo puede un huésped dentro de ESX encontrar problemas como este?
[ 40.601502] end_request: critical target error, dev sdg, sector 430203456
[ 40.601563] sd 2:0:6:0: [sdg] Unhandled sense code
[ 40.601582] sd 2:0:6:0: [sdg] Result: hostbyte=invalid driverbyte=DRIVER_SENSE
[ 40.601622] sd 2:0:6:0: [sdg] Sense Key : Hardware Error Sense Key : Hardware Error [current] [current]
[ 40.601661] sd 2:0:6:0: [sdg] Add. Sense: Internal target failureAdd. Sense: Internal target failure
[ 40.601695] sd 2:0:6:0: [sdg] CDB: Write(10)Write(10):: 2a 2a 00 00 02 19 64 a4 05 62 c0 80 00 00 00 00 40 40 00 00
- físicamente los datos están en vmfs almacenados en una matriz raid6 (adaptec 5805), lo que parece feliz
- Además, el host ESX no registra ningún problema
- el tamaño del disco informado por el invitado parece el mismo que el tamaño del disco provisto
- a través de esx, el invitado tiene 9 'unidades' iguales conectadas y solo 2 exhiben este problema
linux
vmware-esxi
Tobi Oetiker
fuente
fuente
dd if=/dev/sdg bs=512 skip=430203455 count=1
para volver a leer o simplementebadblocks -w -b 512 /dev/sdg 430203457 430203455
para hacer un ciclo de lectura-pruebaescritura-reescritura si te sientes valiente.Respuestas:
He experimentado algo similar en el volumen de copia de seguridad para MS SQL en Win 2008 guest bajo ESX 4.0: es un volumen sin procesar expuesto desde el archivador de NetApp.
El sistema operativo invitado informa (y aún informa) sectores defectuosos en ese volumen.
Creo que esto sucedió debido a demasiadas operaciones de escritura de E / S, tiempo de espera temporal o sobrecarga del archivador.
No más sectores malos reportados. El "lavado de disco" de NetApp dice que todo está bien. No se informaron errores del archivador.
Pero de todos modos vamos a recrear este volumen y ver si soluciona esto.
¿Qué tal sus otros volúmenes en este archivador? ¿Puede verificar este volumen con el comando "badblocks / dev / sdg"? (precaución: sobrecarga de lectura enorme)
fuente
Era un problema de hardware / firmware después de todo. Mientras que el Adaptec 5805 (con el último firmware) informaba que todos los volúmenes RAID6 estaban en estado óptimo, también informaba que un volumen contenía 'Franjas fallidas'. El efecto de esto parece ser que esa parte del volumen RAID6 se vuelve ilegible (causando los errores citados en la pregunta). ESX no parece ver esto directamente, pero la ejecución
dd if=/dev/zero of=file-on-damaged-volume
directa en la consola ESXi terminó en un error de E / S mientras todavía había mucho espacio en el volumen.Ninguna cantidad de arcconf cabaña de verificación / verificación_fix se ejecuta en volúmenes y los dispositivos físicos fueron capaces de detectar o arreglar nada ... Finalmente, moví todos los datos fuera del volumen y los volví a crear en el nivel adaptec. Ahora todo está bien, pero mi confianza en la capacidad de Adaptec para proteger mis datos está gravemente dañada.
fuente