¿Cómo puedo saber si un disco falla en ESXi / qué significan estos errores?

Tengo un servidor que ejecuta VMware ESXi v4.1.0 348481. Tiene un hardware RAID10 y una unidad de respaldo SATA. Tengo una VM en ejecución que tiene su vmdk de arranque primario en el almacén de datos RAID10 y un vmdk de 600 GB en el almacén de datos de la unidad de respaldo SATA. La VM ejecuta Debian Linux con el núcleo FreeBSD y usa ZFS para la unidad de respaldo.

EDITAR: la unidad no está conectada directamente a la VM. Se utiliza como un almacén de datos de VMware, y la VM tiene un vmdk en el almacén de datos de la unidad SATA. El almacén de datos no está lleno (solo el 65% está lleno)

Inicié sesión en el servidor usando SSH y descubrí que la copia de seguridad de anoche estaba bloqueada, zfs listo zpool listambas estaban bloqueadas. Entonces abrí la consola virtual en ESXi y me entristeció ver:

Esta captura de pantalla me pone triste

(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)

Traté de reiniciar la VM y recibí un mensaje de que el sistema se estaba apagando para reiniciar, y luego se bloqueó. (^ C aparece pero no mata shutdown). No puedo interrumpir o kill -9los procesos zpool list zfs listo rsync- No sucede nada cuando lo intento.

¿Esto erradica que la unidad SATA de respaldo está fallando? ¿O podría ser solo un error de ESXi?
¿Cómo podría saber en el cliente vSphere si la unidad falla? No vi ninguna indicación, todo bajo Hardware Health Status se ve bien, y no vi nada en la configuración de Almacenamiento.
¿Cómo debo proceder desde aquí? ¿Debería reiniciar la VM?

ACTUALIZACIÓN: Acabo de reiniciar la máquina virtual. Sin embargo, después de que volvió a estar en línea, el zpool de respaldo estaba en línea:

root@timestandstill:/home/jnet# zpool status -v
  pool: backup
 state: ONLINE
status: One or more devices has experienced an error resulting in data
        corruption.  Applications may be affected.
action: Restore the file in question if possible.  Otherwise restore the
        entire pool from backup.
   see: http://www.sun.com/msg/ZFS-8000-8A
 scrub: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        backup      ONLINE       0     0     0
          da1       ONLINE       0     0     0


errors: Permanent errors have been detected in the following files:

        /backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics

Me estoy inclinando fuertemente hacia el reemplazo de la unidad ...

vmware-esxi drive-failure debian Josh
fuente

Esos errores indican que una de las unidades SATA ha encontrado suficientes bloques defectuosos para quedarse sin espacio de reasignación de bloques. Ese disco es malo y necesita ser reemplazado. No estoy seguro de en qué parte del cliente vSphere se muestra esa información, pero las entradas de registro son bastante claras.

Si su hardware lo permite, un intercambio en caliente debería ser factible. De lo contrario, tendrá que cerrar todo para realizar el cambio. Si esa VM no se ha apagado después de 30 minutos, es hora de terminarla. Es arriesgado, pero si realmente está colgado, no hay mucho para eso.

sysadmin1138
fuente

Gracias @ sysadmin1138. Entonces, a pesar de que esos errores se muestran dentro de la VM, ¿indica claramente un verdadero problema de hardware? ¿IE no es solo una peculiaridad de VMware?

Josh

@ Josh Si ha presentado directamente la unidad SATA a la máquina virtual, definitivamente lo verá. Para el almacenamiento respaldado por archivos, estoy menos seguro; podría ser que su almacén de datos se haya quedado sin espacio.

sysadmin1138

Debería haber aclarado eso. Es un almacenamiento respaldado por archivos. El almacén de datos tiene mucho espacio: es una unidad de 1 TB y el VMDK tiene 600 GB, no hay nada más en el disco. De cualquier manera, claramente está algo mal, así que a menos que alguien más me dé una explicación clara de lo que podría ser, reemplazaré la unidad.

Josh

¿Cómo puedo saber si un disco falla en ESXi / qué significan estos errores?

Respuestas: