Tengo un servidor que ejecuta VMware ESXi v4.1.0 348481. Tiene un hardware RAID10 y una unidad de respaldo SATA. Tengo una VM en ejecución que tiene su vmdk de arranque primario en el almacén de datos RAID10 y un vmdk de 600 GB en el almacén de datos de la unidad de respaldo SATA. La VM ejecuta Debian Linux con el núcleo FreeBSD y usa ZFS para la unidad de respaldo.
EDITAR: la unidad no está conectada directamente a la VM. Se utiliza como un almacén de datos de VMware, y la VM tiene un vmdk en el almacén de datos de la unidad SATA. El almacén de datos no está lleno (solo el 65% está lleno)
Inicié sesión en el servidor usando SSH y descubrí que la copia de seguridad de anoche estaba bloqueada, zfs list
o zpool list
ambas estaban bloqueadas. Entonces abrí la consola virtual en ESXi y me entristeció ver:
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
Traté de reiniciar la VM y recibí un mensaje de que el sistema se estaba apagando para reiniciar, y luego se bloqueó. (^ C aparece pero no mata shutdown
). No puedo interrumpir o kill -9
los procesos zpool list
zfs list
o rsync
- No sucede nada cuando lo intento.
- ¿Esto erradica que la unidad SATA de respaldo está fallando? ¿O podría ser solo un error de ESXi?
- ¿Cómo podría saber en el cliente vSphere si la unidad falla? No vi ninguna indicación, todo bajo Hardware Health Status se ve bien, y no vi nada en la configuración de Almacenamiento.
- ¿Cómo debo proceder desde aquí? ¿Debería reiniciar la VM?
ACTUALIZACIÓN: Acabo de reiniciar la máquina virtual. Sin embargo, después de que volvió a estar en línea, el zpool de respaldo estaba en línea:
root@timestandstill:/home/jnet# zpool status -v
pool: backup
state: ONLINE
status: One or more devices has experienced an error resulting in data
corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the
entire pool from backup.
see: http://www.sun.com/msg/ZFS-8000-8A
scrub: none requested
config:
NAME STATE READ WRITE CKSUM
backup ONLINE 0 0 0
da1 ONLINE 0 0 0
errors: Permanent errors have been detected in the following files:
/backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics
Me estoy inclinando fuertemente hacia el reemplazo de la unidad ...