La mejor manera de probar nuevos discos duros para un servidor de almacenamiento barato

31

Quiero construir un servidor de almacenamiento y lo compré 10 x 2TB WD RED's. El HDD'srecién llegado.

¿Hay alguna herramienta que usen para verificar si hay unidades defectuosas o para defenderse mejor de la mortalidad infantil antes de copiar datos reales en sus discos?

¿Es mejor verificar cada uno HDDo probar la matriz ( ZFS raid-z2) copiando una gran cantidad de datos?

s1lv3r
fuente
1
Sé que hay algunas herramientas específicas del proveedor como "WD Data LifeGuard Diagnostics". Pero me pregunto qué hacen los chicos, que compran muchos discos duros. Dudo que verifiquen cada disco duro (eso lleva mucho tiempo ...), así que me pregunto si hay una herramienta que pueda realizar una prueba SMART completa en todos los discos duros a la vez.
s1lv3r
3
Casi cualquier cosa que escriba en las unidades se puede usar como prueba; un golpe completo o dos de la matriz debería ser suficiente para atrapar la mortalidad infantil. Es una muy buena idea comprar unidades de diferentes proveedores / lotes cuando obtiene más de un par: disminuye significativamente las posibilidades de que varias unidades fallen al mismo tiempo (debido a defectos de fabricación similares).
Chris S

Respuestas:

14

Tuve la misma pregunta hace 2 meses. Después de enviar un disco fallido, el disco de reemplazo falló en mi NAS después de 3 días. Así que decidí probar el nuevo reemplazo antes de ponerlo en producción. No pruebo cada disco nuevo que compro, solo en discos 'restaurados', en los que no confío por completo.

Si decide que desea probar estos discos, le recomendaría ejecutar un análisis de bloques defectuosos y una prueba SMART extendida en el nuevo disco duro.

En un disco de 2TB, esto toma hasta 48 horas. El comando badblock escribe el disco lleno con un patrón, luego lee los bloques nuevamente para ver si el patrón está realmente allí, y lo repetirá con 4 patrones diferentes.

Este comando probablemente no mostrará bloques defectuosos en un disco nuevo, ya que los discos reasignan bloques defectuosos en estos días.

Entonces, antes y después de esto, realicé una prueba inteligente y verifiqué el recuento de sectores pendientes reasignado y actual. Si alguno de estos ha subido, su disco ya tiene algunos bloques defectuosos y, por lo tanto, podría no ser confiable.

Después de esto ejecuto una prueba SMART extendida nuevamente.

Es posible que desee instalar smartctl o smartmontools primero.

Advertencia , el indicador badblocks -w sobrescribirá todos los datos en su disco, si solo desea hacer una verificación de lectura, sin sobrescribir el disco, usebadblocks -vs /dev/sdX

sudo smartctl -a /dev/sdX
# record these numbers
sudo badblocks -wvs /dev/sdX
# let it run for 48 hours
sudo smartctl -a /dev/sdX
# compare numbers
sudo smartctl -t long /dev/sdX
# this might take another hour or 2, check results periodically with
sudo smartctl -a /dev/sdX

Si después de esto sus valores inteligentes parecen estar bien, confiaría en el disco.

Para saber qué significa cada valor inteligente, puede comenzar a buscar aquí

http://en.wikipedia.org/wiki/Self-Monitoring,_Analysis,_and_Reporting_Technology

Jens Timmerman
fuente
Como los demás supusieron, esto puede estar haciendo demasiado, pero como solo tengo 10 discos y ciertamente no puede hacer nada malo, solo estoy revisando todos los discos de la manera que sugirió ahora. Gracias por su respuesta integral.
s1lv3r
23

Estos son discos nuevos. O van a fallar o no lo harán. Ya está un gran paso adelante al usar el sistema de archivos ZFS, que le dará una gran visión de su raid y la salud del sistema de archivos ...

No haría nada más que simplemente construir la matriz. Ese es el punto de la redundancia. No podrá inducir una falla de la unidad con los otros métodos enumerados.

ewwhite
fuente
1
De acuerdo con esto: estás construyendo una matriz. Si un disco falla cuando comienza a poner datos, entonces no importa, lo reemplaza y la matriz se cura automáticamente. Probar los discos para detectar problemas antes de usarlos no le dará una idea adecuada de si fallarán en la vida real: ¡la vida real no es como las pruebas!
Ashley
1
Estoy de acuerdo en que "la vida real no es como las pruebas", pero también he encontrado dos fallas de disco a través de bloques defectuosos. Si hubiera colocado ambos en la misma parte de un RAID 1, 5 o 10, habría perdido todo el RAID.
Rjt
1
@rjt probablemente no. Los sectores defectuosos se reasignarían y las unidades probablemente no habrían fallado al mismo tiempo. Además, no todas las fallas del disco son medios o resultado de bloques defectuosos. ¿Qué sucede si el rodamiento de transmisión se desgasta o funciona mal?
ewwhite
No tomo decisiones sobre los datos de misión crítica en probablemente . El estudio de Google Hard Drive dice que las unidades se desgastan en los primeros 90 días o después de 3 años. Los bloques defectuosos ayudan a eliminar la fruta baja.
Rjt
1
@rjt Por supuesto, usted toma decisiones sobre datos de misión crítica en "probablemente". Si no lo hiciera, no podría almacenar datos en ninguna unidad, independientemente de la cantidad de pruebas que realice.
voretaq7
10

Puedes usar Bonnie ++ para las pruebas. Puede emular perfectamente el patrón de comportamiento del servidor de archivos.

Por ejemplo:

# bonnie++ -u nobody -d /home/tmp -n 100:150000:200:100 -x 300

La prueba se ejecutará como usuario 'nobody' y creará / reescribirá / eliminará 100 * 1024 archivos, de 200 a 150000 bytes por archivo, dentro de 100 directorios creados automáticamente debajo de / home / tmp. Y número de pruebas = 300. Puede jugar alrededor del conteo / tamaño de archivo y el número de repeticiones de prueba.

Shtlzut
fuente
9

Por lo general, solo hago un inicio RAID completo y, cuando corresponde, empiezo a llenar el sistema de archivos durante esto, todo el tiempo sabiendo que podría haber un problema debido a unidades muertas. De esta manera, no pierdo el tiempo para algún tipo de pruebas que de todos modos no son confiables y que detectaría las unidades débiles reales de inmediato. Después de eso, aún podría haber alguna posibilidad elevada de fallas en la unidad debido a la "mortalidad infantil", pero no hay una forma práctica de eliminar esto.

En la práctica, ninguno de los últimos cientos de discos que utilicé en un RAID tuvo problemas durante el primer año de funcionamiento.

Sven
fuente
8

Trabajo para una empresa que hace este tipo de pruebas día tras día. Y sí, probamos cada disco duro que compramos. Nuestro proceso comienza con la ejecución de las unidades a través de un programa gratuito basado en DOS llamado HDAT2. Es gratis para descargar. Puede acceder a SMART y algunas otras funciones de la unidad a las que no se puede acceder desde un entorno Windows. Dependiendo de los resultados allí, los ejecutaremos a través de una de varias líneas diferentes de hardware especializado, pero en el fondo, en su mayoría, solo ejecutan la autocomprobación corta SMART, la Prueba larga, un borrado seguro y All Read para verificar los sectores. Mi sugerencia es ejecutar un borrado seguro del disco completo, luego ejecutar una lectura completa y luego una prueba automática breve INTELIGENTE. Este orden es importante ya que una breve autocomprobación puede no encontrar nada si se ejecuta al comienzo de la prueba, pero después de una escritura y lectura completa del disco, puede recoger algo. Espero que esto ayude.

Mella
fuente
1
serverfault.com/a/501870/117546 tiene más sentido para mí, pero no soy un experto. ¿Por qué su empresa prueba los discos duros? Creo que la prueba más efectiva sería usar el disco.
emory
4

Podrías usar la suite de prueba del fabricante, o algo como SpinRite para barrer todo el disco. También sería una buena idea mirar los valores SMART , buscando sectores defectuosos y otros signos de vejez / falla.

virtualmente natural
fuente
3

Si realmente quieres probar, entonces usa badblocksprueba de escritura. Escribirá patrones de datos en el disco y luego los leerá para verificar. Durante esto, estresará un poco su disco. En mi opinión, si se ejecuta con éxito, puede confiar en el disco.

Pero creo que ZFS y una buena copia de seguridad son suficientes.

Piedra
fuente