No soy un experto en SAN, estoy escribiendo aquí para obtener algunas pistas sobre problemas continuos y exasperantes que estamos teniendo y que nuestro proveedor parece no ser capaz de resolver.
poseemos una SAN ENHANCE ES3160P4 con discos de 16 x 2 Tb que se suministra para nuestro sistema de videovigilancia. El proveedor ha configurado la SAN para usar 14 discos dentro de una matriz RAID 5, y 2 discos son repuestos globales. El RAID generalmente se divide en 2 discos virtuales de igual tamaño que abarcan todo el espacio RAID. Cada uno resulta ser algo más de 12 Tb. Cada disco virtual corresponde a un único LUN, que está conectado a un único servidor de video que almacena continuamente datos de video y permite a los usuarios recuperar grabaciones cuando sea necesario. Los LUN están formateados con NTFS y se conectan a los servidores de videos de Windows Server 2012 a través de iSCSI. Los servidores de videos tienden a usar completamente el espacio disponible que tienen.
Con esta configuración, los discos de la SAN fallan y fallan, y cada vez que la SAN no puede recuperar el RAID porque otro disco falla mientras tanto. Perdimos el RAID como 4 veces en los últimos meses.
Este problema no parece ser causado por una mala muestra de SAN, porque poseemos otras tres máquinas del mismo tipo configuradas de manera similar que parecen tener los mismos problemas. Solo uno no tiene problemas, pero por el momento está infrautilizado.
Después de algunos meses de pruebas y controles desconocidos, el proveedor terminó diciendo que es bien sabido que la SAN no debe usarse al 100% o que se degradará rápidamente, también físicamente, y dijo que para resolver el problema deberían crearse los discos virtuales dejando un 10-15% del espacio total disponible en el RAID.
Busqué el problema en la web y no encontré declaraciones específicas que lo dijeran. Me parece que sería más razonable crear discos virtuales que abarquen todo el RAID y luego subutilizar los LUN (es decir, permitir que Windows tenga espacio libre y evitar la fragmentación). Si no, no entiendo por qué ENHANCE SAN permite crear discos virtuales que abarcan todo el RAID si es tan "conocido" que debe dejarse espacio libre, y por qué el proveedor configuró el sistema de esta manera al principio ... pero ese es otro punto.
Al final, queremos resolver esta situación. Cualquier sugerencia es aceptada. Como dije, no soy un experto en SAN, pero después de tantos problemas me gustaría entender realmente si el proveedor sabe lo que está sucediendo o no, porque ya no podemos aceptar esta situación.
¡Muchas gracias de antemano! Saludos
Editar: tipo de disco A partir de la respuesta, parece ser información relevante, agrego que los discos son todos modelos de Western Digital WD2001FYYG-01SL3.
With this configuration the disks of the SAN are failing and failing, and each time the SAN cannot recover the RAID because another disk fails in the meanwhile. We lost the RAID like 4 times in the last few months.
Esto es exactamente porque, como dice TomTom, los discos son demasiado grandes para RAID5. Y probablemente también RAID 6, FWIW. Sus probabilidades de una reconstrucción exitosa no se acercan al 100%, y lo sabe porque usted mismo declaró que ha tenido "como 4" reconstrucciones sin éxito en cuestión de meses. Su configuración RAID es idiota y su proveedor es incompetente, así de simple.Respuestas:
Por lo que describe, el problema principal es que decidieron usar un RAID5 para una matriz tan grande, lo cual es una mala elección para esta configuración, exactamente por la razón que experimenta: tener un segundo disco fallado durante la recuperación lo rompe todo, y esta segunda falla es muy probable que corra ese riesgo.
Si hubieran utilizado, por ejemplo, un RAID6, tener un segundo disco fallido durante la recuperación no conduciría a una matriz fallida y la recuperación podría continuar normalmente, a costa de un valor de capacidad de almacenamiento neto de un disco y un cierto impacto en el rendimiento.
No puedo ver cómo dejar un 15% de espacio libre ayudaría en absoluto con este problema, y aunque esto podría o no ser una buena idea desde el punto de vista del rendimiento para el sistema de archivos, esto claramente no está relacionado con la falla de RAID. Yo digo que eso es mentira.
Dicho todo esto, no puedo evitar preguntarme: tener esto sucediendo varias veces en el transcurso de unos meses parece ser demasiado incluso para un sistema RAID5. Sugeriría buscar en los tipos de discos utilizados: es posible que su proveedor haya utilizado unidades de escritorio baratas en lugar de unidades 24/7 certificadas para su uso en dicho sistema.
fuente
Entiendo completamente que esta es una publicación antigua, pero a medida que sigo viendo grandes matrices RAID5 en producción, me gustaría agregar mis pensamientos aquí.
los discos que fallan con demasiada frecuencia son generalmente un caso de sobrecalentamiento y / o demasiadas vibraciones, que se pueden encontrar en sistemas mal diseñados o en ubicaciones malas
Estas grandes matrices RAID5 deben evitarse en gran medida . Como regla general, es mucho mejor tener una matriz RAID6 en lugar de una RAID5 + hotspare. En el caso de OP, en lugar de tener 1x disco de paridad con 2x hotspares globales, era mucho mejor tener 2x disco de paridad en una configuración RAID6;
es clave contar con un sistema confiable para la notificación de errores y estados: una matriz no supervisada, degradada sin saberlo, es una receta para el desastre.
fuente