Google realizó un estudio muy exhaustivo sobre fallas en el disco duro que encontró que una porción significativa de los discos duros falla en los primeros 3 meses de uso intensivo.
Mis compañeros de trabajo y yo estamos pensando que podríamos implementar un proceso de grabación para todos nuestros nuevos discos duros que potencialmente podría ahorrarnos un poco de dolor al perder tiempo en discos nuevos y no probados. Pero antes de implementar un proceso de quemado, nos gustaría obtener una idea de otros que tienen más experiencia:
- ¿Qué tan importante es grabar en un disco duro antes de comenzar a usarlo?
- ¿Cómo se implementa un proceso de quemado?
- ¿Cuánto tiempo se quema en un disco duro?
- ¿Qué software utilizas para grabar en unidades?
- ¿Cuánto estrés es demasiado para un proceso de quemado?
EDITAR: Debido a la naturaleza del negocio, los RAID son imposibles de usar la mayor parte del tiempo. Tenemos que confiar en unidades individuales que se envían por correo en todo el país con bastante frecuencia. Realizamos copias de seguridad de las unidades tan pronto como podemos, pero aún encontramos fallas aquí y allá antes de tener la oportunidad de realizar copias de seguridad de los datos.
ACTUALIZAR
Mi empresa ha implementado un proceso de quemado desde hace un tiempo y ha demostrado ser extremadamente útil. Inmediatamente quemamos todas las unidades nuevas que tenemos en stock, lo que nos permite encontrar muchos errores antes de que caduque la garantía y antes de instalarlos en nuevos sistemas informáticos. También ha demostrado ser útil para verificar que una unidad se haya estropeado. Cuando una de nuestras computadoras comienza a encontrar errores y un disco duro es el principal sospechoso, volveremos a ejecutar el proceso de grabación en esa unidad y veremos los errores para asegurarnos de que la unidad realmente sea el problema antes de comenzar el proceso de RMA o lanzar en la basura
Nuestro proceso de quemado es simple. Tenemos un sistema Ubuntu designado con muchos puertos SATA, y ejecutamos bloques defectuosos en modo lectura / escritura con 4 pases en cada unidad. Para simplificar las cosas, escribimos un script que imprime una advertencia de "DATOS SERÁN BORRADOS DE TODOS SUS DISCOS" y luego ejecuta bloqueos defectuosos en cada unidad, excepto la unidad del sistema.
Respuestas:
Si tiene una buena copia de seguridad y buenos sistemas de alta disponibilidad, entonces no mucho. Dado que la restauración de una falla debería ser bastante fácil.
Por lo general, ejecutaré badblocks contra una unidad o un nuevo sistema cuando lo obtenga. Lo ejecutaré cada vez que resucite una computadora de la pila de repuestos. Un comando como este (
badblocks -c 2048 -sw /dev/sde
) en realidad escribirá en cada bloque 4 veces cada vez con un patrón diferente (0xaa, 0x55, 0xff, 0x00). Esta prueba no hace nada para probar muchas lecturas / escrituras aleatorias, pero debería probar que cada bloque también se puede escribir y leer.También puede ejecutar bonnie ++ , o iometer, que son herramientas de evaluación comparativa. Estos deberían tratar de estresar un poco sus impulsos. Las unidades no deberían fallar incluso si intentas maximizarlas. Así que también podrías tratar de ver qué pueden hacer. Aunque no hago esto. Obtener un punto de referencia de E / S de su sistema de almacenamiento en el momento de la instalación / configuración puede ser muy útil en el futuro cuando esté buscando problemas de rendimiento.
En mi opinión, una sola ejecución de bloques defectuosos es suficiente, pero creo que tengo un sistema de respaldo muy sólido y que mis necesidades de HA no son tan altas. Puedo permitirme un tiempo de inactividad para restaurar el servicio en la mayoría de los sistemas que soporto. Si está tan preocupado, que cree que puede ser necesaria una configuración de varios pasos, entonces probablemente debería tener RAID, buenas copias de seguridad y una buena configuración de HA de todos modos.
Si tengo prisa, puedo omitir una quema. Mis copias de seguridad y RAID deberían estar bien.
fuente
IMNSHO, no debe confiar en un proceso de grabación para eliminar las unidades defectuosas y "proteger" sus datos. El desarrollo de este procedimiento y su implementación requerirá un tiempo que podría utilizarse mejor en otros lugares e incluso si una unidad pasa el quemado, aún puede fallar meses después.
Debe usar RAID y copias de seguridad para proteger sus datos. Una vez que esté en su lugar, deje que se preocupe por las unidades. Los buenos controladores RAID y subsistemas de almacenamiento tendrán procesos de 'depuración' que revisan los datos de vez en cuando y aseguran que todo esté bien.
Una vez que se haya solucionado todo esto, no hay necesidad de hacer un fregado de disco, aunque, como otros han mencionado, no está de más hacer una prueba de carga del sistema para asegurarse de que todo funcione como espera. No me preocuparía en absoluto los discos individuales.
Como se ha mencionado en los comentarios, no tiene mucho sentido usar discos duros para su caso de uso particular. Enviarlos es mucho más probable que provoque errores de datos que no estarán allí cuando hiciste la grabación.
Los medios de cinta están diseñados para ser enviados. Puede obtener 250 MBps (o hasta 650 MBps comprimidos) con una sola unidad IBM TS1140 que debería ser más rápida que su disco duro. Y más grande también: un solo cartucho puede proporcionarle hasta 4 TB (sin comprimir).
Si no desea usar cinta, use SSD. Pueden tratarse de manera mucho más dura que los discos duros y satisfacer todos los requisitos que ha dado hasta ahora.
Después de todo eso, aquí están mis respuestas a sus preguntas:
De ningún modo.
Una o dos carreras.
Una simple ejecución de, digamos,
shred
ybadblocks
servirá. Verifique los datos SMART después.Sin estrés es demasiado. Deberías poder arrojar cualquier cosa a un disco sin que explote.
fuente
Dada su aclaración, no parece que ningún proceso de quemado sea de alguna utilidad para usted. Las unidades fallan principalmente debido a factores mecánicos, generalmente calor y vibración; no por ningún tipo de bomba de tiempo oculta. Un proceso de "quemado" prueba el entorno de instalación tanto como cualquier otra cosa. Una vez que mueves la cosa, vuelves a donde empezaste.
Pero aquí hay algunos consejos que pueden ayudarlo:
Las unidades portátiles generalmente están diseñadas para resistir un mayor empuje y vibración que las unidades de escritorio. Mis amigos que trabajan en tiendas de recuperación de datos siempre envían datos a clientes en unidades portátiles por ese motivo. Nunca he probado este hecho, pero parece ser "conocimiento común" en industrias seleccionadas.
Las unidades flash (por ejemplo, unidades de memoria USB) son las más resistentes a los golpes de cualquier medio que pueda encontrar. Debería ser aún menos probable que pierda datos en tránsito si usa medios flash.
Si envía una unidad Winchester, realice un escaneo de superficie antes de ponerla en uso. O mejor aún, simplemente no lo pongas en uso. En cambio, es posible que desee designar ciertas unidades como unidades de "envío", que ven todo el abuso, pero en las que no confía para la integridad de los datos. (Es decir: copie los datos en la unidad para enviarlos, cópielos después del envío, muy sumas de verificación en ambos lados, ese tipo de cosas).
fuente
Tu proceso está mal. Deberías usar matrices de incursiones. Donde trabajo, hemos fabricado conjuntos de incursiones resistentes diseñados para ser transportados. No es una ciencia exacta. El montaje a prueba de golpes de las unidades en gabinetes de gran tamaño con grandes aisladores de vibraciones de goma mejorará enormemente la confiabilidad. (Las unidades Seagate constellation-es, como ejemplo, están clasificadas para choque de 300G pero solo vibración 2G, no funcionan: por lo tanto, la caja de envío debe aislar la unidad de vibración. Http://www.novibes.com/Products&productID=62 o http : //www.novibes.com/Products&productId=49 [parte # 50178])
Sin embargo, realmente desea grabar en discos duros de prueba, así que aquí va.
He trabajado en sistemas como discos duros y quemar en encontrado algunos problemas pero ...
Para las pruebas aceleradas del ciclo de vida de los PCB para detectar fallas, nada supera a algunos ciclos de frío / calor. (operar ciclos de frío-calor funciona aún mejor ... pero es más difícil para usted, especialmente con bancos de HDD)
Consígase una cámara ambiental lo suficientemente grande para la cantidad de unidades que adquiera a la vez. (Estos son bastante caros, sería más barato enviar conjuntos de incursiones) No puede escatimar en las cámaras de prueba, necesitará control de humedad y rampas programables.
Programe en dos rampas de temperatura repetidas, hasta la temperatura mínima de almacenamiento, hasta la temperatura máxima de almacenamiento, haga que las rampas sean lo suficientemente empinadas como para molestar al ingeniero de aplicaciones del fabricante de su disco duro. 3 ciclos de frío-calor en 12 horas deberían hacer que las unidades fallen bastante rápido. Ejecute las unidades al menos 12 horas así. Si algún trabajo después me sorprenderá.
No pensé esto: un lugar en el que trabajé tenía un ingeniero de producción que hizo esto, para que se enviaran más productos con el mismo equipo de prueba, hubo un gran aumento de fallas en la prueba, pero la tasa de muertos al llegar cayó prácticamente a cero.
fuente
No estoy de acuerdo con todas las respuestas que básicamente dicen "No te molestes con el quemado, ten buenas copias de seguridad".
Si bien siempre debe tener copias de seguridad, ayer pasé 9 horas (además de mi turno habitual de 10 horas) restaurando las copias de seguridad porque el sistema estaba funcionando con unidades que no se habían quemado.
Había 6 unidades en una configuración RAIDZ2 (ZFS equivalente a RAID-6) y tuvimos 3 unidades muertas en el transcurso de 18 horas en una caja que había estado funcionando durante aproximadamente 45 días.
La mejor solución que he encontrado es comprar unidades de un fabricante en particular (no mezclar y combinar), luego ejecutar su herramienta provista para ejercitar las unidades.
En nuestro caso compramos Western Digital y utilizamos sus diagnósticos de disco basados en DOS desde un ISO de arranque. Lo iniciamos, ejecutamos la opción de escribir basura aleatoria en todo el disco, luego ejecutamos la prueba SMART corta seguida de la prueba SMART larga. Eso suele ser suficiente para eliminar todos los sectores defectuosos, leer / escribir reasignaciones, etc.
Todavía estoy tratando de encontrar una forma decente de 'lotes' para poder ejecutarlo en 8 unidades a la vez. Podría usar 'dd if = / dev / urandom of = / dev / whatever' en Linux o 'badblocks'.
EDITAR: Encontré una mejor manera de 'agruparlo'. Finalmente pude configurar un servidor de arranque PXE en nuestra red para abordar una necesidad particular, y noté que el CD Ultimate Boot puede arrancarse con PXE. Ahora tenemos un puñado de máquinas basura que se pueden iniciar PXE para ejecutar diagnósticos de unidades.
fuente
¿Qué tan importante es grabar en un disco duro antes de comenzar a usarlo?
Depende.
Si lo está utilizando en un RAID que proporciona redundancia (1, 5, 6, 10)? No muy.
Si lo está usando standaolone? Un poco, pero es mejor que solo ejecutes smartd o algo para monitorearlo, al menos en mi opinión.
Naturalmente, esto lleva a mi respuesta a " ¿Cómo implementar un proceso de quemado? " - No lo hago.
En lugar de intentar "grabar en discos", los ejecuto en pares redundantes y uso monitoreo predictivo (como SMART) para decirme cuándo un disco se está volviendo inestable. Descubrí que el tiempo extra requerido para realizar una grabación completa (realmente ejercitar todo el disco) es sustancialmente más costoso que lidiar con una falla e intercambio del disco.
Combinando RAID y buenas copias de seguridad, sus datos deberían ser muy seguros, incluso cuando se trata de mortalidad infantil (o el otro extremo de la cura de la bañera cuando comienza a tener unidades mueren de vejez)
fuente
Spinrite (grc.com) leerá y reescribirá todos los datos en el disco. Es bueno hacer una nueva unidad incluso si no está tratando de hacer que falle. Se tarda mucho tiempo en ejecutarse en el nivel 4, generalmente un par de días para unidades de tamaño actual. También debo agregar que no es destructivo. De hecho, si tiene datos en puntos defectuosos, los moverá y los recuperará. Por supuesto, nunca lo ejecutarías en un SSD.
fuente
Estoy seguro de que una evaluación comparativa de una vez por semana y una verificación de errores serán suficientes para "grabar en" discos duros. Aunque desde tu publicación nunca he oído hablar de tal cosa.
Citado de "6_6_6" en Stroagereview.com
En general, personalmente creo que es una mala idea.
EDITAR: Scource: http://forums.storagereview.com/index.php/topic/27398-new-hdd-burn-in-routines/
fuente
Primero, estoy de acuerdo con otros carteles en que su caso de uso sugiere que las unidades de cinta serán la mejor opción.
Si eso no es posible, si tiene que volar unidades en todo el país, un verdadero RAID no parece ser una opción, ya que tendrá que transportar muchas más unidades, lo que aumenta el riesgo de falla. Sin embargo, ¿qué pasa con un esquema de duplicación simple, enviar una unidad y mantener la otra en el sitio de origen?
Luego, si la unidad falla al llegar, se puede hacer y enviar una nueva copia. Si la unidad es buena a la llegada, el repuesto se puede reutilizar, ya sea para enviar o para hacer una copia de seguridad de los datos originales.
fuente
Realmente no ha dicho por qué se envían las unidades: ¿es solo una forma de enviar datos, tienen aplicaciones completas / imágenes del sistema operativo listas para arrancar en una PC o algo más?
Estoy de acuerdo con las otras respuestas de que RAID o las copias de seguridad son mejores que el escaneo, debido a los riesgos de enviar una unidad que causa problemas mecánicos.
Una forma más general de expresar esto sería "confiar en datos redundantes para detectar y corregir errores": enviar 2 unidades para cada conjunto de datos o enviar datos redundantes en una sola unidad. Algo como Parchive le permite agregar un nivel definido de redundancia a los datos, lo que permite la recuperación incluso si una gran parte de los datos está dañada. Dado que los discos son bastante baratos en estos días, simplemente comprar un disco más grande de lo estrictamente requerido a menudo será más barato que escanear la unidad, enviar una unidad de reemplazo o enviar 2 unidades.
Esto protegería contra fallas no catastróficas de la unidad; sin embargo, es mejor no reutilizar una unidad enviada excepto para el envío, como se sugirió anteriormente, es decir, verla como una cinta que debe extraerse a una unidad 'real' que está permanentemente instalado y no enviado a ninguna parte.
Esto debería permitirle enviar una gran cantidad de datos (o incluso imágenes de aplicaciones / SO) y reducir el impacto de los errores de disco a cualquier nivel económico.
fuente