La unidad de espacio de almacenamiento / ReFS se cae bajo una carga pesada

8

Tengo una estación de trabajo con Windows 10 utilizada en mi negocio para cosas como el procesamiento de imágenes (Photoshop) y el desarrollo de software (Eclipse). Es una computadora basada en i7-2600K, placa base Gigabyte GA-B75M-D3H B75, 16 GB de RAM. El sistema operativo está en Samsung 850 pro SSD, hay otro 850 pro para datos, WD Black para datos, más dos unidades HGST de 4GB cada una en puertos SATA 3, ReFS formateado, en un espejo de espacios de almacenamiento. El conjunto tiene 1,63 GB utilizados, 1,99 GB gratis.

Recientemente, las unidades ReFS en el espejo de espacios de almacenamiento han comenzado a caer, hasta ahora tres veces en un mes. Esto generalmente ocurre bajo carga moderada a pesada, después de un período prolongado. Por lo que puedo decir, ninguno de los otros discos cae bajo carga, así que supongo que es ReFS, espacios de almacenamiento o un problema con un disco subyacente. Un reinicio pone el disco en línea.

Puedo ver errores en el visor de eventos como los siguientes. Estos no están todos en un solo lugar, y aunque hay áreas de registro de NTFS y Espacios de almacenamiento en "registro de aplicaciones y servicios -> microsoft -> windows", no parece haber uno para ReFS.

Agradecería ayuda para rastrear qué está causando estos problemas y resolverlos, por lo que mi sistema se mantiene activo.

16:27.05 (under event viewer -> application and services log -> microsoft -> windows -> storagespaces-driver-operationsl
Virtual disk {26bf58b3-1cb9-4b93-a945-1b89331bb565} requires a data integrity scan.                                    
Data on the disk is out-of-sync and a data integrity scan is required.                  To start the scan, run the following command:                  

Get-ScheduledTask -TaskName "Data Integrity Scan for Crash Recovery" | Start-ScheduledTask                  

Once you have resolved the condition listed above, you can online the disk by using the following commands in PowerShell:                  

Get-VirtualDisk | ?{ $_.ObjectId -Match "{26bf58b3-1cb9-4b93-a945-1b89331bb565}" } | Get-Disk | Set-Disk -IsReadOnly $false                  
Get-VirtualDisk | ?{ $_.ObjectId -Match "{26bf58b3-1cb9-4b93-a945-1b89331bb565}" } | Get-Disk | Set-Disk -IsOffline  $false

16:27.05 (windows system event log): The file system was unable to write metadata to the media backing volume R:. A write failed with status "A device which does not exist was specified." ReFS will take the volume offline. It may be mounted again automatically.
16:27.06 (windows system event log): The file system detected a checksum error and was not able to correct it. The name of the file or folder is "<unable to determine file name>".
18:35.50 (windows system event log): Failed to connect to the driver: (-2147024894) The system cannot find the file specified. 
18:35.50 (Kernel PNP) The driver \Driver\WudfRd failed to load for the device SWD\WPDBUSENUM\_??_USBSTOR#Disk&Ven_Generic&Prod_STORAGE_DEVICE&Rev_9451#7&2a9fd895&0#{53f56307-b6bf-11d0-94f2-00a0c91efb8b}.

18:35.58: Virtual disk {26bf58b3-1cb9-4b93-a945-1b89331bb565} could not be repaired because there is not enough free space in the storage pool.                  
Replace any failed or disconnected physical disks. The virtual disk will then be repaired automatically or you can repair it by running this command in PowerShell:                  
Get-VirtualDisk | ?{ $_.ObjectId -Match "{26bf58b3-1cb9-4b93-a945-1b89331bb565}" } | Repair-VirtualDisk

ACTUALIZAR ya que yagmoth señala que este error incluye algo sobre USB. Los escenarios en los que recuerdo que ocurre este error son a) Al realizar una copia de seguridad en un disco USB externo b) Al ejecutar copias de seguridad de CrashPlan en otro disco SATA interno

Tim
fuente
1
antivirus eliminado en caso de que sea un problema de compatibilidad de Windows 10? como si mcafee tuviera problemas con la actualización de aniversario
yagmoth555
@ yagmoth555 Supongo que podría intentarlo, pero no me parece muy probable. Estoy bastante interesado en cómo solucionar el problema en sí mismo, en lugar de adivinar y verificar.
Tim
Lamentablemente, sin más registros, sospecho que hay un problema de hardware debajo. Como la idea AV era la prueba fácil, como si su espejo no pudiera manejar IO, el controlador AV en acceso / escritura no ayuda (ya que ralentiza su IO instalando un controlador intermedio) Si desea investigar sin prueba / error, podría probar un monitor de proceso primero para registrar todo. Si todo falla, trataría de eliminar la duplicación para probar nuevamente después (pero esa prueba todavía es una prueba de prueba / error tristemente).
Mantennos
¿Puedo preguntar si su espejo está hecho con disco usb? como el error del kernel indica un controlador usb
yagmoth555
Ambos discos están en SATA 3Gbps. Buena detección del error de USB. Pregunta actualizada No estoy en la máquina durante una semana más o menos, pero intentaré activarlo nuevamente y ver si los registros son diferentes. Parece que ProcessMonitor generaría masas de registros, pero alguna vez lo intentaré, gracias.
Tim

Respuestas:

2

Los espacios de almacenamiento parecen muy sensibles a la latencia de escritura: si hay demasiados picos, el volumen puede caerse.

Esto parece un problema conocido cuando se usan SSD de consumidor, como puede encontrar aquí

shodanshok
fuente
Gracias por esa información Mis discos ReFS / Storage Space son discos duros HGST de 4TB, no SSD. Mis SSD ejecutan NTFS. Sin embargo, lo de la latencia de escritura es interesante.
Tim
1

Primero, realmente deberías verificar el HCL. Apostaría una cena bastante buena, nada de lo que mencionaste hay en Storage Spaces HCL. Al igual que vSAN, Windows y Storage Spaces tienen HCL completamente diferentes. Puedo decir sin siquiera buscar sus unidades, que ninguna de ellas estará en el HCL, porque ninguna de ellas son unidades de grado empresarial.

Si desea una solución estable, obtenga una tarjeta SAS LSI (no RAID), obtenga discos duros SATA empresariales y obtenga un SSD serie Intel dc. ¿Es caro? Sí. ¿Será confiable? Tanto como Windows puede ser cuando se trata de almacenamiento (que no es genial).

Yo, volqué los espacios de almacenamiento y volví a una tarjeta RAID LSI. Pasó de la corrupción de datos todas las semanas al almacenamiento sólido durante más de dos años en el mismo hardware. Y tenía TODO el kit de grado empresarial que estaba en el HCL.

Puede encontrar la Lista de compatibilidad de hardware (HCL) aquí https://www.windowsservercatalog.com/results.aspx?&chtext=&cstext=&csttext=&chbtext=&bCatID=1642&cpID=0&avc=10&ava=0&avq=0&OR=1&PGS=25&ready=0

Eric C. Singer
fuente
1
Gracias por tus pensamientos Eric. Tal vez podría editar su publicación para expandir "HCL", ya que no sé lo que significa, y tampoco lo leerán los demás. Pensé que el objetivo de RAID de software, como los espacios de almacenamiento, era evitar la necesidad de costosas soluciones de nivel empresarial. No estoy seguro de que su respuesta "deséchela y compre otra cosa" realmente responde a mi pregunta.
Tim
Vea mis comentarios, HCL = hardware que está certificado para funcionar en términos simples. SW RAID no es igual o significa que puede escatimar en HW de grado empresarial, significa que tiene la flexibilidad de una solución basada en SW.
Eric C. Singer
... y deje de usar ReFS, vuelva a NTFS. es como infinitamente más maduro que ReFS. ReFS tiene muchas promesas, pero también tiene mucho que madurar.
Eric C. Singer
Escribí una publicación de blog completa sobre Storage Spaces BTW, comencé una serie pero la dejé porque, en mi opinión, es un POS. Como la mayoría de las soluciones de MS, está medio cocido. ericcsinger.com/backup-storage-part-5-realization-of-a-failure Cambiamos a las tarjetas RAID y no he tenido problemas desde entonces. Dado que está utilizando la duplicación, casi sería mejor configurar un script de robocopy para copiar datos de un disco a otro. Más fácil de solucionar y probablemente más confiable, y le permitiría conservar sus discos de calidad para el consumidor.
Eric C. Singer
1
Dicho esto, dado que está duplicando sus discos, puede desalojar un disco, formatearlo con NTFS y copiar sus datos en él. Me fuertemente aconsejar en contra de espacios de almacenamiento, como el tema que se está viendo no es tanto un ReFS uno, ya que es un espacio de almacenamiento uno. Todo lo que tenga que ver con que los discos sean desalojados o se muestren como fallidos está relacionado con los espacios de almacenamiento. Si solo está tratando de mantener sus discos sincronizados para tener una réplica local, la robocopia es la forma más fácil de hacerlo, es solo No el tiempo real es todo.
Eric C. Singer