¿Puede fallar una configuración de disco RAID 4 si solo falla un disco duro? [cerrado]

9

Soy un desarrollador web. No tengo mucha experiencia en hardware. Por esta razón, uso servidores administrados.

Esta mañana, una de las unidades en nuestra configuración falló. Sin embargo, el sitio completo se cayó. Le pregunté a mi proveedor de alojamiento web qué sucedió y él respondió que el disco duro falló de tal manera que el controlador RAID no podía funcionar correctamente. La matriz se configuró como RAID 4.

¿Ustedes han visto eso antes? ¿Es posible?

Gracias por cualquier ayuda en esto chicos. Necesito saber si mi proveedor de alojamiento web es honesto conmigo.

Steve Rodrigue
fuente
Si muere más de un disco en una matriz, el RAID fallará (aunque depende de la configuración del RAID).
Rhys Evans el
En pocas palabras, su proveedor es un ****** y trabaja en el lado barato. Eso podría ser perfectamente aceptable siempre y cuando usted, como cliente, haya sido advertido de que su infraestructura no es tolerante a fallas.
Luke404
Actualice la pregunta con el tipo de incursión (es decir, incursión 0,1,4,5,6, etc.).
Trevor Boyd Smith

Respuestas:

22

Lo más probable es que su proveedor esté utilizando discos duros que no están destinados a ser utilizados en RAID. Las unidades SATA de consumo normales entran en esta categoría.

El problema probable es que la unidad comenzó a experimentar errores de lectura no corregibles (URE). Cuando esto sucede en una unidad de consumo, la unidad se queda allí y vuelve a intentar la operación de lectura (generalmente durante 30-60 segundos) hasta que se da por vencida. El RAID esperará a que la unidad informe el error (los 30-60) segundos. Por lo tanto, una simple solicitud de algunos sectores puede hacer que el servidor se detenga fácilmente mientras que la unidad fallida realiza esas operaciones de reintento de lectura.

Las unidades destinadas a matrices RAID tienen recuperación de errores por tiempo limitado (para unidades SATA). TLER informa las fallas a los controladores rápidamente, de modo que el controlador pueda responder de manera inteligente a tales fallas (principalmente de manera inteligente; con suerte). SCSI (SAS también) funciona de manera algo diferente. El conjunto de comandos SCSI permite al controlador especificar varios límites de esfuerzo de recuperación en las unidades (MODE SELECT: RW ERR RECOVERY). Un controlador RAID debe configurar las unidades para que fallen rápidamente, el controlador puede probar si la unidad cree que está funcionando correctamente con el comando TUR, fallar la unidad fuera de la matriz si hay una condición de verificación.

Chris S
fuente
Buena explicación.
sbrattla
11

Sí, esto es posible, incluso en escenarios en los que pensaría que la matriz debería haber sobrevivido al fallo.

Algunas posibilidades de por qué falla una matriz:

  • Falló más unidades de las que podría soportar el modo RAID. Por ejemplo:
    • RAID 0 (rayas) no puede sobrevivir a ningún fallo de la unidad.
    • RAID 1 puede sobrevivir a fallas de todas las unidades menos 1.
    • RAID 4/5 puede sobrevivir a 1 falla de la unidad.
    • RAID 6 puede sobrevivir a 2 fallas de la unidad.
    • RAID 10 puede sobrevivir a la falla de hasta el 50% de las unidades, dependiendo de las unidades que fallan.
  • Un error en el software RAID o el firmware del controlador.
  • Error de usuario.
    • Alguien sacó demasiados discos.
    • Alguien sacó una unidad y nunca la reemplazó, y otra unidad falló posteriormente.
    • La matriz no fue monitoreada, lo que permitió que fallaran más unidades de las que podrían sobrevivir.
  • Los controladores baratos con unidades de grado de consumo son comúnmente conocidos por fallar incluso en escenarios que de otra manera podrían sobrevivir.
    • Una unidad de nivel de consumidor intentará leer casi indefinidamente un sector defectuoso hasta que obtenga una buena lectura. Un controlador barato esperará casi indefinidamente a que tal unidad devuelva un resultado. La espera puede ser tan larga que el sistema operativo se rinda. Luego, al reiniciar, las unidades no responden lo suficientemente rápido al controlador y se supone que la matriz falla.
    • Por otro lado, una unidad de nivel empresarial se rendirá rápidamente, permitiendo que el controlador extraiga los datos de otra unidad. Además, un buen controlador marcará una unidad que tarda demasiado en responder como fallida y seguir adelante.
cuello largo
fuente
1
RAID 1 debería sobrevivir a la muerte de todas las unidades menos una en la matriz. Por supuesto, la mayoría de las personas probablemente ejecutan configuraciones RAID 1 de dos unidades, lo que significa que solo puede sobrevivir a la muerte de una sola unidad, pero eso no es inherente a RAID 1.
un CVn
Es interesante que si falla 1 disco en un RAID 10, debe romper otro disco porque no sobrevivirá si solo un disco está roto :-) Creo que debería editar su publicación.
VUELO el
@ MichaelKjörling buen punto. Edité mi publicación.
cuello largo
@FLY tienes razón, pasé por alto ese punto. editado
cuello largo
RAID4 debe ser RAID3. RAID3 es un byte con paridad; RAID4 fue una implementación de ECC que necesitaba una gran cantidad de unidades que AFAIK nunca se implementó.
Dan está tocando el violín el
8

Si se trataba de una implementación RAID 0, ciertamente, cuando falla una sola unidad, perderá la matriz y todos los datos que contiene.

joeqwerty
fuente
Es una implementación RAID 4
Steve Rodrigue
11
jajaja - casi me tienes allí, ¿qué es realmente?
Chopper3
3
@ Chopper3 NetApp utiliza RAID4. Así que no es completamente desconocido, aunque también me dio una sonrisa. Tal vez esa es la forma en que el anfitrión dice que tiene un NetApp Filer o algo así.
HopelessN00b
1
@SteveRodrigue ¿Estás seguro de que es RAID 4?
MDMarra
1
Si de hecho es RAID4 y solo 1 unidad ha fallado, entonces debería ser posible instalar una nueva unidad y reconstruir la matriz, al menos en principio. ¿Quizás el proveedor de alojamiento web quiso decir que una de las unidades restantes falló mientras intentaba hacer esto?
user3490
2

He visto errores de firmware que eliminan todo el RAID cuando un disco falla, o cuando comienza a informar una falla inminente. Lo siento, no tengo nada específico que señalar, pero sí, puede suceder. No como parte de la especificación RAID, por supuesto, definitivamente es un error.

chutz
fuente
1

Si es posible. No se supone que suceda, pero ciertamente puede suceder. Ingrese URE (Error de lectura irrecuperable) y fallas del controlador y errores de firmware y similares.

Sin información adicional (que su host probablemente no le dará), no es posible decir definitivamente de una forma u otra, pero cualquiera que haya trabajado con una gran cantidad de matrices RAID ha tenido experiencias en las que una matriz completa se perdió o se bloqueó cuando No debería haberlo hecho.

(Y, por cierto, RAID4 no es un nivel RAID muy utilizado, pero debería soportar la pérdida de cualquier unidad . Sin embargo, no significa que siempre lo hará).

HopelessN00b
fuente
1

He tenido muchas fallas de HDD donde no fallaron los mecanismos, sino la electrónica que conforma la interfaz de comunicaciones. Debido a su pequeño tamaño, muchos componentes electrónicos son muy sensibles incluso a irregularidades eléctricas menores (esto puede suceder cuando se encienden / apagan grandes motores de aire acondicionado cercanos, etc., y la fuente de alimentación es un poco barata).

Cuando los convertidores o condensadores de energía internos del disco (memorias intermedias de almacenamiento de energía) queman las señales eléctricas generadas en los conectores externos del HDD pueden y se saldrán de la especificación. Dado que la unidad está conectada al controlador a través de cables de cobre, y a menudo en los servidores muchas unidades comparten una conexión de cable para facilitar la instalación y reducir el desorden, esto puede interrumpir fácilmente o incluso destruir permanentemente cualquier número de componentes adyacentes.

Por cierto, esto tiene muy poco que ver con los precios. Es cierto que los controladores y las unidades costosas PUEDEN usar piezas que sean más tolerantes a condiciones anormales o que tengan un mejor blindaje, y que con los componentes de presupuesto es más probable que obtenga piezas por debajo del estándar. Pero regularmente he encontrado condensadores idénticos en una unidad de $ 50 y una unidad de $ 500. Y si un HDD fallido enruta directamente 12 voltios desde la fuente de alimentación al conector SATA porque algo se cortocircuitó, su controlador RAID se estropeará, sin importar cuántas cifras tenga la etiqueta de precio.

No es lo que suele suceder, pero definitivamente no es desconocido en mi experiencia.

Jost
fuente
"a menudo en los servidores, muchas unidades comparten una conexión de cable" No en entornos SAS o SATA modernos. Es astronómicamente improbable que su escenario sea lo que sucedió aquí; No creo haber oído hablar de la electrónica de una unidad muriendo y llevando otros componentes con ella. Si bien 12v freiría un controlador SATA o SAS, los componentes lógicos rara vez se conectan al 12v de alguna manera, ya que reducir el voltaje de 12 a 3.3 o menos es muy complicado en comparación con las fuentes de 5v o 3.3v. Tengo curiosidad de saber dónde podría estar pasando este tipo de cosas; si estas dispuesto a compartir?
Chris S
1

Sí, supongo que toda la incursión puede fallar después de un solo fallo de unidad. El controlador desconectará la primera unidad defectuosa y la incursión seguirá funcionando bien. Pero cuando se reemplaza la unidad fallida, el controlador comienza a reconstruir la incursión. Si hay un problema de lectura no descubierto latente en una de las otras unidades restantes, una reconstrucción de la unidad fallida podría hacer que más unidades se desconecten (cuando se descubren problemas de lectura mientras se reconstruye la incursión) nuevamente causando que la incursión completa fallar.

Pitágoras
fuente
Esta es la razón por la cual las matrices RAID deben limpiarse regularmente para detectar problemas de lectura o escritura.
Chris S