Soy un desarrollador web. No tengo mucha experiencia en hardware. Por esta razón, uso servidores administrados.
Esta mañana, una de las unidades en nuestra configuración falló. Sin embargo, el sitio completo se cayó. Le pregunté a mi proveedor de alojamiento web qué sucedió y él respondió que el disco duro falló de tal manera que el controlador RAID no podía funcionar correctamente. La matriz se configuró como RAID 4.
¿Ustedes han visto eso antes? ¿Es posible?
Gracias por cualquier ayuda en esto chicos. Necesito saber si mi proveedor de alojamiento web es honesto conmigo.
Respuestas:
Lo más probable es que su proveedor esté utilizando discos duros que no están destinados a ser utilizados en RAID. Las unidades SATA de consumo normales entran en esta categoría.
El problema probable es que la unidad comenzó a experimentar errores de lectura no corregibles (URE). Cuando esto sucede en una unidad de consumo, la unidad se queda allí y vuelve a intentar la operación de lectura (generalmente durante 30-60 segundos) hasta que se da por vencida. El RAID esperará a que la unidad informe el error (los 30-60) segundos. Por lo tanto, una simple solicitud de algunos sectores puede hacer que el servidor se detenga fácilmente mientras que la unidad fallida realiza esas operaciones de reintento de lectura.
Las unidades destinadas a matrices RAID tienen recuperación de errores por tiempo limitado (para unidades SATA). TLER informa las fallas a los controladores rápidamente, de modo que el controlador pueda responder de manera inteligente a tales fallas (principalmente de manera inteligente; con suerte). SCSI (SAS también) funciona de manera algo diferente. El conjunto de comandos SCSI permite al controlador especificar varios límites de esfuerzo de recuperación en las unidades (MODE SELECT: RW ERR RECOVERY). Un controlador RAID debe configurar las unidades para que fallen rápidamente, el controlador puede probar si la unidad cree que está funcionando correctamente con el comando TUR, fallar la unidad fuera de la matriz si hay una condición de verificación.
fuente
Sí, esto es posible, incluso en escenarios en los que pensaría que la matriz debería haber sobrevivido al fallo.
Algunas posibilidades de por qué falla una matriz:
fuente
Si se trataba de una implementación RAID 0, ciertamente, cuando falla una sola unidad, perderá la matriz y todos los datos que contiene.
fuente
He visto errores de firmware que eliminan todo el RAID cuando un disco falla, o cuando comienza a informar una falla inminente. Lo siento, no tengo nada específico que señalar, pero sí, puede suceder. No como parte de la especificación RAID, por supuesto, definitivamente es un error.
fuente
Si es posible. No se supone que suceda, pero ciertamente puede suceder. Ingrese URE (Error de lectura irrecuperable) y fallas del controlador y errores de firmware y similares.
Sin información adicional (que su host probablemente no le dará), no es posible decir definitivamente de una forma u otra, pero cualquiera que haya trabajado con una gran cantidad de matrices RAID ha tenido experiencias en las que una matriz completa se perdió o se bloqueó cuando No debería haberlo hecho.
(Y, por cierto, RAID4 no es un nivel RAID muy utilizado, pero debería soportar la pérdida de cualquier unidad . Sin embargo, no significa que siempre lo hará).
fuente
He tenido muchas fallas de HDD donde no fallaron los mecanismos, sino la electrónica que conforma la interfaz de comunicaciones. Debido a su pequeño tamaño, muchos componentes electrónicos son muy sensibles incluso a irregularidades eléctricas menores (esto puede suceder cuando se encienden / apagan grandes motores de aire acondicionado cercanos, etc., y la fuente de alimentación es un poco barata).
Cuando los convertidores o condensadores de energía internos del disco (memorias intermedias de almacenamiento de energía) queman las señales eléctricas generadas en los conectores externos del HDD pueden y se saldrán de la especificación. Dado que la unidad está conectada al controlador a través de cables de cobre, y a menudo en los servidores muchas unidades comparten una conexión de cable para facilitar la instalación y reducir el desorden, esto puede interrumpir fácilmente o incluso destruir permanentemente cualquier número de componentes adyacentes.
Por cierto, esto tiene muy poco que ver con los precios. Es cierto que los controladores y las unidades costosas PUEDEN usar piezas que sean más tolerantes a condiciones anormales o que tengan un mejor blindaje, y que con los componentes de presupuesto es más probable que obtenga piezas por debajo del estándar. Pero regularmente he encontrado condensadores idénticos en una unidad de $ 50 y una unidad de $ 500. Y si un HDD fallido enruta directamente 12 voltios desde la fuente de alimentación al conector SATA porque algo se cortocircuitó, su controlador RAID se estropeará, sin importar cuántas cifras tenga la etiqueta de precio.
No es lo que suele suceder, pero definitivamente no es desconocido en mi experiencia.
fuente
Sí, supongo que toda la incursión puede fallar después de un solo fallo de unidad. El controlador desconectará la primera unidad defectuosa y la incursión seguirá funcionando bien. Pero cuando se reemplaza la unidad fallida, el controlador comienza a reconstruir la incursión. Si hay un problema de lectura no descubierto latente en una de las otras unidades restantes, una reconstrucción de la unidad fallida podría hacer que más unidades se desconecten (cuando se descubren problemas de lectura mientras se reconstruye la incursión) nuevamente causando que la incursión completa fallar.
fuente