Increíblemente lenta eliminación de instantáneas

13

Tengo una caja ESXi con almacenamiento HP LeftHand expuesto a través de iSCSI.

Tengo una máquina virtual con un disco de 1TB, de los cuales se consumen 800GB. El disco tiene un aprovisionamiento grueso en el almacenamiento LeftHand.

Se abrió una instantánea en la VM (para que Veeam Backup and Recovery pudiera hacer lo suyo), y estuvo abierta durante aproximadamente 6 horas. Se creó un disco delta de alrededor de 5 GB durante este tiempo.

La eliminación de la instantánea ahora ha tomado más de 5 horas, y aún no está completa. La matriz de almacenamiento informa prácticamente que no hay IOPS en esa matriz (alrededor de 600, que es ruido de fondo), no hay rendimiento (alrededor de 8 MB / seg, que nuevamente - ruido de fondo), una profundidad de cola promedio de 9.

En otras palabras, el proceso de consolidación de instantáneas no parece estar sujeto a E / S, no puedo ver nada que esté causando que la eliminación de la instantánea sea tan lenta. Se está trabajando, a juzgar por la observación de los archivos delta.

¿Hay algo más que deba considerar por qué esta instantánea (relativamente pequeña) es tan lenta de eliminar?


Según la documentación de VMWare , estoy viendo ls -lh | grep -E "delta|flat|sesparse"ahora mismo, y veo dos archivos delta que están cambiando:

-rw-------    1 root     root      194.0M Jun 15 01:28 EXAMPLE-000001-delta.vmdk
-rw-------    1 root     root      274.0M Jun 15 01:27 EXAMPLE-000002-delta.vmdk

Estoy deduciendo que un archivo de instantánea se está consolidando mientras que el otro recopila delta durante el proceso de consolidación. Luego, el nuevo se consolida y se crea otro delta durante ese proceso.

El tamaño de los archivos está disminuyendo con cada iteración (bueno, la mayoría de las iteraciones), por lo que supongo que eventualmente este procedimiento de consolidación se completará (tal vez tendré que sacar la VM de la red durante 30 minutos para dejar que esto termine sin generar ningún cambio) .

Se tarda alrededor de 2 minutos por cien megas de delta para consolidarse. Esto ciertamente nunca ha sucedido antes. La eliminación de instantáneas bajo una copia de seguridad normal de Veeam lleva alrededor de 40 minutos (por lo que ciertamente no es rápido, pero no tan lento).


Después de 6 horas y 2 minutos, la instantánea finalmente se elimina. Sin embargo, todavía me gustaría saber si hay alguna forma en que normalmente solucionaría este tipo de problema (fuera del rendimiento del almacenamiento).

Mark Henderson
fuente
No puedo evitar notar que 8Mbit / segundo está bastante cerca de las redes de 10Mbit / seg menos algunos gastos generales. ¿Hay alguna posibilidad de que este sea un problema relacionado con la red en el enlace iSCSI: el parche dudoso comienza a fallar? ¿Es un enlace único, un único host, si el host funciona bien para lecturas / escrituras sostenidas? ¿Se puede verificar el puerto del switch en busca de errores?
TessellatingHeckler
@TessellatingHeckler Acabo de hacer algunas pruebas y todavía puedo obtener alrededor de 1,5 Gbit / seg secuencial de la matriz, que es lo que esperaría obtener de ella en circunstancias normales. Ayer por la noche la eliminación instantánea tomó tres minutos , que es con diferencia el más rápido que he nunca visto (normalmente cerca de 10 veces más que el tiempo, pero había un gran juego de fútbol de aquí anoche por lo que sospecho que nadie estaba usando los sistemas después de las horas cuando se ejecutan las copias de seguridad, de ahí el pequeño delta y el pequeño tiempo de confirmación). Entonces puede hacerlo rápidamente, solo que una vez no lo hizo.
Mark Henderson
Hmm ¿Tiene VMware Storage IO Control ejecutándose y el almacén de datos se comparte con otras máquinas virtuales? ¿Alguna posibilidad de que estuviera alcanzando algún límite de aceleración / suave allí, sin estresar al host o al hardware SAN?
TessellatingHeckler
¿Versión ESXi y vCenter?
Nils
@Nils 5.5 para ambos
Mark Henderson

Respuestas:

2

Tengo entendido que la eliminación de instantáneas ESXI puede (y generalmente lo hace) tomar mucho tiempo. Antes de poder eliminar la instantánea, los cambios de la instantánea anterior deben escribirse en la siguiente instantánea en orden. Me enseñaron a eliminar siempre las instantáneas de la más antigua a la más reciente para ayudar a que este proceso se ejecute de la manera más rápida y eficiente posible.

Naturalmente, cuantos más cambios haya entre las instantáneas, más tardará la fusión.

Andrew Meyer
fuente
1
Correcto, excepto 6 horas para eliminar una instantánea de 5 GB es absurdo. Como mencioné, normalmente toma alrededor de 40 minutos eliminar la instantánea, e incluso siento que 40 minutos son demasiado lentos. Esta fue la única instantánea en esa VM, y también la eliminación de instantáneas ha cambiado en versiones posteriores de ESXi en que el orden en el que se eliminan no importa demasiado.
Mark Henderson
2
He visto el comportamiento de la instantánea lenta antes con poca E / S en el almacenamiento, pero nunca lo rastreé hasta una causa. Siempre supuse que el hipervisor estaba masticando los deltas en memoria. (Las máquinas en cuestión usaban almacenamiento de conexión directa o podría haber examinado los problemas de SAN también, pero siempre lo atribuí a grandes deltas o código no optimizado en el subsistema de instantáneas de VMWare).
voretaq7