En nuestra tienda, estamos usando RAID fielmente en todas nuestras estaciones de trabajo, probablemente solo porque esa es la forma en que debería hacerse. Estoy hablando de estaciones de trabajo para simulaciones científicas, utilizando los chips RAID integrados.
Pero he escuchado muchas historias de terror RAID. Stackoverflow en sí ha tenido un interrupción causada indirectamente por el controlador RAID .
RAID lo protege contra un tipo muy limitado de falla (falla del disco físico), pero al mismo tiempo también introduce puntos adicionales de falla. Puede haber problemas con el controlador RAID, y a menudo los hay. Al menos en nuestra tienda, parece que los controladores RAID fallan al menos tan a menudo como los discos mismos. También puede estropear fácilmente algo con el proceso de cambiar una unidad defectuosa.
¿Cuándo vale la pena RAID? ¿No obtiene un mejor retorno de la inversión al agregar más redundancia a sus soluciones de respaldo? ¿Qué tipo de RAID es mejor o peor a este respecto?
Editar: he cambiado el título del original "¿Vale la pena el RAID?", Por lo que suena menos negativo
fuente
Respuestas:
¡No se preocupe, RAID no se usa en todo el mundo de los negocios debido al pensamiento grupal! La posibilidad de que los controladores RAID decentes fallen es mucho, mucho menor que la posibilidad de una falla del disco. No recuerdo haber visto fallar un controlador RAID en la vida real, mientras que he visto morir muchos discos, tanto en la oficina como en el centro de datos.
PD: veo tus etiquetas. ¡RAID no es una copia de seguridad! :)
fuente
ZFS by SUN (también parte de OpenSolaris; Apples OSX - actualmente solo lectura) no solo ataca con varios niveles sino que siempre verifica si los datos escritos en el disco están realmente allí. la consistencia es la clave! RAID es inútil si no puede confiar en su integridad . Elija un controlador RAID decente (prefiero HP) y friegue su RAID para encontrar errores periódicamente.
Softwareraid (como ZFS), por otro lado, lo hace más independiente del hardware si el controlador RAID muere y no puede obtener un reemplazo exacto.
fuente
Siempre. Los discos son baratos, su información no lo es. Pero use RAID de software, de modo que tenga la flexibilidad de avanzar o cambiar el hardware más adelante (créame, lo necesitará). Y también use un sistema de archivos de suma de comprobación como ZFS, para protegerse contra la corrupción silenciosa de datos (lo cual es muy probable con discos grandes hoy en día).
fuente
Para aquellos de ustedes que dicen que no usarán RAID de hardware porque si el controlador falla y no pueden obtener un reemplazo identico que se atornilló, lo están haciendo de la manera incorrecta.
Si el tiempo de actividad es tan importante para usted, NO debería comprar hardware barato. Como se dijo antes, use un buen controlador RAID, HP, LSI, Dell, etc.
Si el controlador se compró al fabricante de la computadora, es decir, el servidor Dell, con el controlador RAID de Dell, Dell le dirá cuánto tiempo almacenarán esas piezas, generalmente esto en el año 4+ desde la EOL de ese servidor.
Si tener a alguien corriendo nuevamente significa que no puede esperar la entrega, entonces debería comprar un segundo controlador de repuesto para usted, independientemente de quién lo hizo.
Si configura como RAID 1, a veces puede tomar una de esas unidades y soltarlas en un controlador normal para recuperar los datos. Si eso es importante para usted, confirme / pruebe esto con su controlador antes de encontrarse en una situación crítica.
El RAID de hardware salvó mi trasero 2x. Una vez en un servidor de correo electrónico, una de las unidades falló, recibí la alerta por correo electrónico del software de monitoreo de incursiones en esa máquina, llamé a Dell y tenía una nueva unidad al día siguiente, la conecté y reconstruyó todo por su cuenta. CERO tiempo de inactividad en ese
En segundo lugar, se produjo un error de unidad en un servidor de archivos antiguo que estaba programado para reemplazo en 6 meses. El controlador lo mantuvo funcionando y trasladamos el reemplazo del servidor hasta esa semana. Se guardó la compra de una nueva unidad (ya que estaba fuera de garantía) y nuevamente CERO tiempo de inactividad.
He usado incursiones de software antes y simplemente no se recuperan tan bien como las basadas en hardware. Debe probar su configuración, software o hardware para asegurarse de que funciona y saber qué hacer cuando las cosas marrones golpeen el ventilador.
fuente
Es mucho más probable que ocurran fallas en el disco duro en un servidor que en una estación de trabajo de escritorio ...
No puede simplemente decir "agregar más puntos de falla" sin tener en cuenta la probabilidad de esa falla. Especialmente porque estos puntos menos probables de falla están específicamente establecidos para subvertir el bloqueo más probable del disco duro. Como lo has dicho, básicamente has creado una falacia similar a la apuesta de Pascal .
La mayoría de los sistemas RAID en las placas base de escritorio son híbridos de hardware / software de cheapo con la mayor parte del trabajo realizado en su controlador de software. En mi humilde opinión, son trozos de basura utilizados para vender a los usuarios avanzados.
Por otro lado, un buen RAID de hardware real es bastante confiable y tiene el hardware para hacer lo suyo sin (¿a pesar de?) El sistema operativo. Pero esos se vuelven caros, porque el hardware real generalmente tiene copias de seguridad de la batería y una matriz XOR'ing completa para calcular sumas de verificación, etc. Incluso más costoso si se hace usando SCSI.
Resumen: si está ejecutando los sistemas RAID basados en la placa base, entonces no, no vale la pena.
fuente
Aunque las copias de seguridad y RAID son soluciones a diferentes problemas, la mayoría de los "problemas de RAID" son muy similares al problema de copia de seguridad más común (es decir, nadie prueba una restauración): nadie prueba la recuperación del sistema. Otros problemas RAID a menudo son el resultado directo de personas que no entienden lo que hace y lo que no hace. Por ejemplo, muchas personas piensan que RAID garantiza la integridad de sus datos, no es así.
Para estaciones de trabajo, si está utilizando RAID-0 para mejorar el rendimiento de las aplicaciones vinculadas a IO, o RAID-1/5/6 para mantener a un científico de $ 100 / hora trabajando cuando falla su disco duro de $ 80, está utilizando RAID adecuadamente. Simplemente no confunda la redundancia de disco con la copia de seguridad , y probé procedimientos para garantizar que sus técnicos de TI manejen la recuperación.
fuente
Hay dos tipos de RAID
Algunos sistemas operativos tienen una buena solución de incursión de software (esto no tiene nada que ver con las tarjetas basura mencionadas anteriormente). La incursión de software de Linux es especialmente buena, su rendimiento es realmente bueno.
Raid solo puede mejorar la confiabilidad, no es una solución de respaldo. Los archivos se pueden eliminar accidentalmente, el disco defectuoso puede devolver (y duplicar) datos incorrectos a otros discos en una matriz RAID, por lo que aún se necesita una solución de respaldo real.
fuente
RAID es excelente para el tiempo de actividad, pero no es un sustituto de la copia de seguridad. Como un colega comentó una vez: "¿Sabes ese momento 'Oh, sh! T' cuando borraste algo accidentalmente? RAID solo significa que llegas a 'Oh, sh! T' más de una unidad al mismo tiempo".
Dicho eso, ese día, cuando asoma la cabeza a la oficina de su jefe y le dice: "Por cierto, el servidor de la base de datos tuvo un bloqueo del disco duro anoche, nunca fallamos, terminó de reconstruirse en el repuesto a las 5 AM y He enviado la unidad defectuosa en garantía ", es cuando RAID no tiene precio.
fuente
¿Cuál es su índice de fallas en discos duros y controladores de banda? La falla en el controlador de banda debería ser mucho más baja que la de los discos. Si tiene una alta tasa de fallas, es posible que desee observar su entorno, como las descargas estáticas que podrían estar causando problemas.
Para las estaciones de trabajo, es posible que desee utilizar una incursión de software como lo sugiere Alakdae porque no tendrá que preocuparse por mantener las existencias del controlador de hardware preciso. Sin embargo, debe tener toda la información vital almacenada en sus servidores que tienen ataques de hardware y están respaldados en diferentes medios.
Los fabricantes de hardware de servidor mantienen controladores de incursión, por lo que incluso si se trata de un controlador más antiguo, generalmente puede obtenerlo de ellos si lo necesita (aunque le costará un centavo).
fuente
Parece que muchas de las publicaciones anteriores están olvidando la pregunta original y solo están debatiendo sobre RAID 1. La pregunta era "¿Cuándo vale la pena el RAID?" Bueno, depende ... Si sus desarrolladores leen y escriben muchos datos con sus estaciones de trabajo, una configuración RAID 0 valdría la pena. Por supuesto, agregar más unidades a este RAID 0 aumentará la velocidad y el rendimiento, PERO aumentará la probabilidad de una falla (disco o controlador).
Trabajo para una escuela de enfermería con aproximadamente 500 máquinas Dell implementadas y casi ninguna de ellas utiliza ningún tipo de RAID. Me parece que mi tipo de usuarios no verá suficiente beneficio para agregar la complejidad de un sistema RAID en cada máquina. Me preocupa más la recuperación de datos y las imágenes de disco que la velocidad de RAID 0 o la redundancia de RAID 1. Por supuesto, no estoy hablando de nuestros servidores de producción, esa es otra historia. Como la recuperación de datos es crucial, confiamos en otros métodos de respaldo para dar cuenta de algo más que la redundancia de disco. Cualquier tipo de RAID no lo ayudará si un usuario elimina accidentalmente un archivo.
Entonces, para responder su pregunta, en mi humilde opinión ... RAID 0 en una estación de trabajo vale la pena cuando el usuario necesita el rendimiento. (Solo asegúrese de hacer una copia de seguridad de todos los datos importantes). Estoy seguro de que puede verificar el rendimiento de datos en la configuración existente para ver si es adecuado. RAID 1 debe usarse en el entorno del servidor donde hay disponibles controladores RAID de clase superior. No vale la pena el hassel en una estación de trabajo porque complica la implementación, la imagen del disco y las reparaciones. Muchas de estas estaciones de trabajo vienen con controladores RAID integrados en la placa base. Es una buena sensación saber si una placa base se apaga en una máquina. Siempre puedo colocar la unidad en otro sistema para obtener los datos.
fuente
El software RAID de Linux es excelente, y de hecho supera a RAID de hardware de gama baja. También tiene algunas optimizaciones que pueden ser útiles para una estación de trabajo. Por ejemplo, puede leer diferentes cosas en cada disco al mismo tiempo, duplicando efectivamente los tiempos de lectura de acceso aleatorio, que es un caso de uso común a diferencia de las operaciones vinculadas a la velocidad de transferencia optimizadas por RAID 0 .
En cuanto a la confiabilidad, es una parte muy bien mantenida del kernel de Linux, utilizada por millones, maneja muy bien las fallas de hardware, por lo que es claramente una victoria en lo que respecta a la disponibilidad. Lo he usado en mis estaciones de trabajo personales, así como en algunas docenas de servidores de gama baja durante años, algunos bastante cargados, y nunca podría atribuirle ninguna falla. Sin embargo, he experimentado una buena docena de discos rotos mientras tanto.
(Sin embargo, las tarjetas RAID de hardware de gama más alta tienen otras características, como la memoria caché de escritura con respaldo de batería. Básicamente, multiplica la velocidad de escritura de disco sincronizada al azar por diez. Es absolutamente necesario para las bases de datos, probablemente bastante inútil para las estaciones de trabajo).
fuente
Acabo de fallar los controladores RAID en dos servidores (idénticos), ya que obtuvimos esas dos máquinas, no tuvimos una falla en el disco duro en toda la compañía.
Creo que RAID en el escritorio es una mala idea, los controladores RAID baratos que vas a poner en esas máquinas fallarán mucho antes que el disco duro real.
En los servidores, tal vez, no voy a volver a confiar en los controladores RAID, asegúrese de tener una máquina de repuesto y buenas copias de seguridad.
fuente
Soy desarrollador y todas nuestras estaciones de trabajo usan RAID para las unidades internas. RAID 0. Esto definitivamente vale la pena. Nunca querrá volver a compilar desde una sola unidad de 7200 RPM una vez que haya probado un par de 15000.
Me han cuestionado si es el RAID o la unidad de 15k lo que hace que los tiempos de compilación sean más cortos. No lo sé, para compilar un solo disco rápido puede dar exactamente el mismo rendimiento. Sin embargo, una sola unidad SAS no es particularmente grande para una PC moderna, por lo que RAID a bordo aún tiene un lugar. Eso y dudo que RAID vaya a afectar el rendimiento del sistema.
Creo que este tipo de RAID es ciertamente apropiado para una estación de trabajo y probablemente se haga mejor usando los controladores de bajo costo. Desde el lado del servidor, la mayoría de nuestros servidores tienen alguna forma de matriz RAID para el disco del sistema operativo y los datos se encuentran en una matriz separada de alguna forma apropiada. No sé acerca de nuestros servidores de producción, pero nuestros servidores de desarrollo (de los cuales tenemos una buena cantidad) nunca han fallado en un controlador, aunque hemos tenido fallas en las unidades. En un caso, la mitad de la matriz del sistema operativo falló en un cuadro SQL, mientras se reconstruía, ¡el otro disco falló! ¡A veces RAID1 no es suficiente!
fuente
Para sus estaciones de trabajo científicas, puede valer la pena SI esos sistemas funcionan mejor con sus datos almacenados localmente, en lugar de compartirlos en un servidor de archivos. Para la población general, sin embargo, diría que no. No vale la pena la molestia y el dolor de cabeza cuando todo lo que realmente necesita es restaurar los datos que deben mantenerse en los recursos compartidos.
fuente
RAID solo es útil cuando absolutamente no puede hacer que el servidor se caiga inesperadamente. Usamos RAID en todos nuestros servidores en nuestro centro de datos donde no hay otra forma de redundancia. Por ejemplo, no usamos RAID en nuestros servidores web, porque todavía hay otros 10 funcionando.
La prueba de fuego es "si un disco se rompe en medio de la noche y no puede esperar hasta las 9 am, necesita RAID"
fuente
RAID vale la pena cuando tiene un controlador con batería de respaldo.
Para las aplicaciones de servidor que con frecuencia fdatasync () registran archivos (que no es raro en las bases de datos) para mayor durabilidad, terminarás escribiendo los mismos bloques una y otra vez. Esto matará el rendimiento de IO si no tiene un controlador con batería de respaldo.
Si TIENES un controlador respaldado por batería, muchas de las escrituras ni siquiera llegarán a los discos, sino que solo permanecerán en la memoria hasta que sean reemplazadas por otra escritura. Ésto es una cosa buena.
La redundancia es una ventaja, pero no es esencial, ya que las cosas importantes deberían ser redundantes a nivel de sistema.
fuente
Las implementaciones RAID baratas son terribles.
Sus opciones son, en orden de confiabilidad:
Cualquier otra cosa está pidiendo problemas, y de hecho puede resultar en una confiabilidad general más baja que una solución no RAID.
Considere qué hacer si su controlador falla y el fabricante está fuera del negocio.
Considere si puede recuperarse de una aparente falla de doble disco causada por problemas de alimentación / cableado.
Esos son dos ejemplos entre cientos.
fuente
Para las estaciones de trabajo, RAID probablemente no valga la pena en comparación con tener un nuevo sistema en el que se puedan restaurar los datos ...
Muchos estaban hablando de RAID 0 ... eso no está ahí para ayudar a la disponibilidad. Estás duplicando las posibilidades de que falle el volumen, ya que una vez que muere una unidad pierdes todo. RAID 0 se trata de jugar con velocidad de acceso a lecturas / escrituras en un volumen y dar más almacenamiento. La única forma en que esto podría ayudar en un entorno empresarial es tomar dos RAID 0 y reflejarlos como RAID 1.
RAID no es una solución de respaldo, como se ha señalado.
RAID tampoco es perfecto. Creo que esta publicación del blog de este tipo resume cómo me siento acerca de RAID y cuándo vale la pena: ¿ pensando en RAID?
En una estación de trabajo, debe poder hacer que una persona use otro sistema mientras se implementa un reemplazo. ¿Por qué usar RAID? Sus datos deben almacenarse en el servidor donde se centralizan la gestión, la integridad de los datos y las copias de seguridad. La estación de trabajo debe configurarse de modo que pueda actualizarse o modificarse periódicamente según lo permitan las finanzas y el RAID es solo otra capa de costo y dolor de cabeza para administrar (además del uso de energía y problemas de calefacción con unidades adicionales e imposición de flujo de aire). En la mayoría de los casos para las empresas, probablemente sea mucho más rentable poner el dinero de una tarjeta RAID en una unidad más grande, y si está utilizando RAID a bordo, todavía tendrá problemas ya que tiende a vincular el RAID formato a la placa base (y no es cierto RAID de todos modos ... se encuentra en las búsquedas de Google como "incursión falsa".
fuente
¿Por qué molestarse en una estación de trabajo? Seguramente tiene todos sus directorios personales y datos almacenados centralmente. Ahí es donde quieres usar la incursión.
fuente
Si le preocupa la falla de un controlador de unidad, entonces también debe considerar la falla del servidor: ventiladores, placa base, RAM, red ... y luego también debe considerar la falla del enrutador, el cableado y la alimentación ... y también debe considerar la falla del centro de datos (inundación, incendio, error humano), y luego debe considerar la falla de la red externa (corte de cables, ¡todo el tiempo en algunos lugares!).
En resumen, ¡puede preocuparse tanto por el tiempo de inactividad del sitio que nunca se molestaría en poner nada en línea! O podría tener en cuenta el riesgo de falla contra el costo de la redundancia y obtener un enfoque mucho más realista. Y de todas las cosas que enumeré, el disco duro es el punto de falla más probable.
Junto al error humano, eso es. ¿Quién escribe "
shutdown -h now
" cuando quería reiniciar .... :(fuente
Mi gran preocupación son los discos, ya que parece que no puedes comprar los baratos:
Un vendedor importante señala:
'La mayoría de los controladores RAID están diseñados para agotar el tiempo de espera de un comando dado si la unidad de disco deja de responder dentro de un período de tiempo determinado. El resultado será que la unidad aparecerá fuera de línea o se marcará como incorrecta y se enviará una alerta al cliente. Las unidades de clase empresarial (o unidades diseñadas para entornos RAID) tienen un límite de reintentos antes de que un sector se marque como incorrecto. Este límite de reintentos permite que la unidad responda al controlador RAID dentro del tiempo esperado. Si bien las unidades de escritorio pueden funcionar con un controlador RAID, la matriz se desconectará progresivamente a medida que la unidad de disco envejezca y puede provocar la pérdida de datos ''.
Eso me parece una locura, otro problema que asegura que los vendedores de discos obtendrán muchos retornos de personas que 'no saben mejor'. Sin embargo, leí que Google hizo un documento técnico (no lo puedo encontrar) que muestra que no hay diferencia en la confiabilidad de la unidad entre las dos 'clases' ofrecidas por los proveedores de almacenamiento. Sin embargo, dudo que Google use controladores de banda de hardware en su flota de cajas beige.
¿Quizás mdadm (en Linux Raid) tiene configuraciones que uno puede usar para lidiar con las configuraciones más impacientes en los firmwares de unidades de escritorio?
¿Quizás en realidad, todos están pagando por su garantía a través de un período de 'tiempo de espera' en el firmware del controlador?
fuente