¿Por qué fallan mis discos duros?

23

Tengo un pequeño servidor Ubuntu ejecutándose en casa, con 2 discos duros. Hay dos raids de software (raid1) en los discos, administrados por mdadm, que creo que es irrelevante, pero de todos modos lo menciono.

Ambos discos duros son Western Digital, y se han utilizado durante aproximadamente 2 años, cuando uno de ellos comenzó a hacer clic y murió. Me imaginé que tal vez sea natural después de 2 años, así que compré uno nuevo y volví a probar los conjuntos de incursiones. Después de aproximadamente un mes, la otra unidad también murió.

No sospeché, ya que ambas unidades se compraron al mismo tiempo, no es sorprendente verlas cerca una de la otra, así que compré otra.

Hasta ahora, 2 unidades antiguas fallaron y 2 nuevas en el sistema. Después de un mes, una de las unidades nuevas murió. Esto es cuando comenzó a ser sospechoso. Dado que la PC se creó a partir de algunas partes realmente antiguas (piense en AthlonXP), pensé que tal vez el controlador SATA de la placa base sea el culpable. Por supuesto, no puedes cambiar partes fácilmente en una PC vieja como esta, así que compré un sistema completo, nuevo MB, nueva CPU, nueva RAM. Tomó el disco recién fallado, ya que estaba en garantía, y lo reemplazó.

Por lo tanto, son hasta 2 unidades fallidas de las antiguas y 1 unidad fallida de las nuevas. Sin problemas, por 1 mes. Después de eso, los errores volvían a aparecer en / var / log / messages, y mdadm informaba fallas en la matriz de incursiones. Empecé a arrancarme el pelo. Todo es nuevo en el sistema, depende del tercer disco duro nuevo, simplemente no es posible que todos los discos nuevos que compré estén defectuosos.

Veamos qué sigue siendo común ... los cables. Bien, tiro largo, reemplacemos los cables SATA. Recupere el disco duro, sonría al tipo del mostrador y diga que soy realmente desafortunado. Él reemplaza el disco duro. Llego a casa, pasa un mes y falla uno de los discos duros, nuevamente. No estoy bromeando.

Dos de los nuevos discos duros han fallado. Tal vez es un error en el sistema operativo. Veamos qué dice la herramienta de prueba del fabricante. Descargue la herramienta de prueba, grábela en un CD, reinicie, deje la prueba del disco duro durante la noche. La prueba dice que la unidad está defectuosa, y debería hacer una copia de seguridad de todo, si aún puedo. No sé qué está sucediendo, pero no parece un problema de software, definitivamente algo está afectando a los discos duros.

Debo mencionar ahora que todo el sistema está en una caja de zapatos. Como hay un montón de cosas de "construye tu propio caso de ikea", pensé que no debería haber ningún problema para tirar la cosa en una caja y guardarla en algún lugar. La caja está bien ventilada, pero pensé que tal vez las unidades se estaban sobrecalentando. No hay otra respuesta posible a esto. Así que recuperé el disco duro, lo reemplacé (por tercera vez) y compré enfriadores de disco duro.

Y justo ahora, he escuchado el sonido de la fatalidad. haga clic haga clic en whizzzzzzzzz . SSH en la caja:

You have new mail!
mail
r 1
DegradedArrayEvent on /dev/md0 ...

salida dmesg:

[47128.000051] ata3: lost interrupt (Status 0x50)
[47128.000097] end_request: I/O error, dev sda, sector 58588863
[47128.000134] md: super_written gets error=-5, uptodate=0
[48043.976054] ata3: lost interrupt (Status 0x50)
[48043.976086] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[48043.976132] ata3.00: cmd c8/00:18:bf:40:52/00:00:00:00:00/e1 tag 0 dma 12288 in
[48043.976135] res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[48043.976208] ata3.00: status: { DRDY }
[48043.976241] ata3: soft resetting link
[48044.148446] ata3.00: configured for UDMA/133
[48044.148457] ata3.00: device reported invalid CHS sector 0
[48044.148477] ata3: EH complete

Resumen:

  1. No hay posibilidad de sobrecalentamiento
  2. 6 unidades han fallado, 4 de ellas han sido completamente nuevas. Ahora no estoy seguro de que los dos originales hayan sido defectuosos o hayan sufrido lo mismo que los nuevos.
  3. No hay nada común en el sistema, aparte del sistema operativo que es Ubuntu Karmic ahora (comenzó con Jaunty). Nuevos MB, nueva CPU, nueva RAM, nuevos cables SATA.
  4. No, los pequeños orificios del disco duro no están cubiertos.

Estoy llorando. De Verdad. No tengo cara para volver a la tienda ahora, no es posible que 4 unidades fallen en 4 meses.

Algunas ideas que he estado pensando: ¿Es posible que estropee algo cuando particiono y vuelvo a sincronizar las unidades? ¿Puede ser tan malo que destruya físicamente el disco? (dado que la herramienta suministrada por el proveedor dice que la unidad está dañada) Hago la partición con fdisk y uso el mismo tamaño de bloque para las particiones raid1 (verifico los tamaños de bloque exactos con fdisk -lu)

¿Es posible que el kernel de Linux o mdadm, o algo no sea compatible con esta marca exacta de discos duros, y los destruya?

¿Es posible que sea la caja de zapatos? Intenta colocarlo en otro lugar? Ahora está debajo de un estante, por lo que la humedad tampoco es un problema. ¿Es posible que una carcasa de PC normal resuelva mi problema (voy a pegarme un tiro entonces)? Tendré una foto mañana.

¿Estoy simplemente maldito?

Cualquier ayuda o especulación es muy apreciada.

Editar : La regleta está protegida contra sobretensiones.

Edit2 : me he mudado entre estos 4 meses, por lo que la posibilidad de que la causa sea electricidad "sucia" en ambos lugares es muy baja.

Edit3 : He comprobado los voltajes en el BIOS (no pude tomar prestado un multímetro), y todos parecen correctos, la mayor discrepancia está en los 12V, ya que suministra 11.3. ¿Debería estar preocupado por eso?

Edit4 : puse la fuente de alimentación de mi PC de escritorio en el servidor. El BIOS informó lecturas de voltaje mucho más precisas, y también ha reconstruido con éxito la matriz raid1, que tardó entre 3 y 4 horas, por lo que ahora me siento un poco positivo. Obtendrá una nueva PSU mañana para probar con eso. Además, adjuntando la imagen sobre la caja: (ignore la tercera unidad)

imagen de la caja de la fatalidad

K. Norbert
fuente
77
¿Por qué odias tanto los discos duros?
Jeff Atwood
3
Es lo contrario, me odian. Con pasión.
K. Norbert
44
WishCow, si la prueba de la unidad se realizó con una fuente de alimentación débil, solo refleja el funcionamiento de la unidad con una potencia débil. Muchas veces, el hardware que falla con poca energía suministrada funcionará bien cuando se suministra con la energía adecuada. Francamente, el mal poder constituye una fracción ENORME de todos los problemas de hardware. Mi primera acción cuando sospecho que un componente de hardware defectuoso es probar una fuente de alimentación en buen estado ...
Richard T
3
Una regleta de alimentación solo lo protegerá contra sobretensiones; no lo protegerá contra subtensión. Según lo indicado por otros, un UPS (al menos cualquiera que valga la pena) `` limpiará '' la energía sucia porque funcionará con batería, en lugar de funcionar directamente desde la toma de corriente.
Wayne Hartman
3
Hola WishCow, conecta a tierra los componentes conectándolos todos juntos con cualquier material conductor. Tradicionalmente, las personas usan un "estuche", pero puedes usar cables. Las unidades de disco tienen muchos agujeros roscados para tornillos, estos son perfectos. La placa madre puede ser un poco más complicada porque estaba destinada a conectarse a tierra a través de los pernos de montaje en un estuche. Hacen sujetadores "independientes" que tienen un tornillo en un extremo y roscas en el otro. Puede usar uno de estos, un tornillo y una tuerca para unir a uno de los agujeros de montaje de la placa, manteniendo su accesorio de cable alejado de la placa. -cont-
Richard T

Respuestas:

26

¿Tu fuente de alimentación también es vieja? Tal vez está sub / sobrecargando la unidad que está causando la falla. Si tiene un multímetro, intentaría medir el voltaje que se está ejecutando en sus discos duros y observarlo durante un período de tiempo. Otro culpable puede ser la electricidad 'sucia', por lo que un UPS puede estar en orden para que 'limpie' la energía que ingresa a la fuente de alimentación.

Wayne Hartman
fuente
El psu! Eso también es viejo, sí, trataré de obtener un multímetro. Olvidé mencionarlo, pero la regleta está protegida contra sobretensiones, al menos es un tipo especial. Gracias por la sugerencia.
K. Norbert
Una fuente de alimentación poco fiable puede provocar fallas en los componentes eléctricos, como los discos duros. La fuente de alimentación fue lo primero que pensé cuando leí tu publicación.
ConcernedOfTunbridgeWells
Voy a marcar esto como aceptado, hasta que los discos duros se den por vencidos nuevamente, y verán cómo conectar a tierra los componentes. ¡Gracias por el consejo!
K. Norbert
WishCow, espero que te des cuenta de que esta no es la respuesta correcta. El problema es / fue que no proporcionó ninguna base para los componentes.
Richard T
2
Lo más probable es que sea la PSU más la ausencia de conexión a tierra. El voltaje de +12 V que cita es muy bajo (en realidad está fuera de las especificaciones ATX) y sé por experiencia cuán vulnerables son los HDD a bajo voltaje: producen todo tipo de errores extraños para que piense que su MB, CPU o memoria tienen la culpa. Para cualquiera que trabaje con PC, en realidad vale la pena mantener una fuente de alimentación buena para que pueda verificar que un problema no esté relacionado con la energía.
raw_noob
14

Estoy de acuerdo con los demás: poder.

Sin embargo, con un giro.

TODOS los componentes deben tener una conexión a tierra COMÚN: el chasis es típico, pero en su caso, ¡quién sabe! Un "terreno a la deriva" podría causar esto, estoy seguro.

Desea que todos los componentes estén unidos a una sola tierra Y esa tierra esté unida a la tierra desde la tierra de la "red eléctrica" ​​de su instalación. Esto es importante.

Por cierto, ¡es posible que todo su hardware antiguo todavía esté bien! He descubierto que el equipo que se suministró con una fuente de alimentación escamosa a veces sobrevive bien cuando se proporciona un suministro adecuado.

Espero que esto ayude.

RT

Richard T
fuente
Oh dios, espero que el viejo hardware no funcione, ya que lo descarté. La herramienta de prueba dijo que los discos duros están rotos. Intentará reemplazar la fuente de alimentación.
K. Norbert
66
Tuve problemas de conexión a tierra al ejecutar un sistema "sin carcasa" (todas las piezas se montaron en plexy y se colgaron en la pared). La solución fue tender un solo cable de conexión a tierra desde la caja de la fuente de alimentación a la caja de cada dispositivo y la conexión a tierra de la placa base.
Chris Nava
5

Esta es una publicación antigua y es posible que la pregunta original ya no sea relevante para la persona que hace la pregunta. Sin embargo, para referencia futura a las personas que construyen una PC económica, Power no es un problema global con las unidades de disco. Es, en mi opinión profesional como ingeniero de implementación certificado por EMC, una respuesta engañosa para culpar a una fuente de alimentación como la única parte responsable dado que la computadora está dentro de una caja de cartón.

Los discos duros vibran, y aunque no existe una posición particular, vertical u horizontal, que aumente o disminuya la longevidad de un disco, existe, sin embargo, un factor de vibración que crea un disco duro con husillos. Las unidades que se muestran aquí están en una caja de cartón. Este es un ejemplo de ingeniería de presupuesto, y las unidades de vibración están de lado, aumentando aún más la resonancia en el plato. Aunque esta no es una respuesta en sí misma, los discos duros montados incorrectamente PUEDEN provocar una falla del disco debido a que un plato vibratorio interrumpe los cabezales de lectura y escritura al tocar el plato correctamente.

La energía, las fuentes de alimentación baratas siempre son malas para las computadoras en general, sin embargo, es poco probable que esta fuente de alimentación elimine los discos duros y no otros componentes más sensibles de la placa. Este sistema está en una caja de cartón, por lo que la ingeniería y la potencia podrían haber provocado una falla más catastrófica, pero no necesariamente su falla de disco. Es posible, pero no está probado en este caso.

Calor: el calor puede destruir un disco, sin embargo, si no estaba caliente al tacto en el momento del fallo, el calor no es el culpable. Una caja de cartón no es una buena hazaña de ingeniería para una PC o servidor. Es mejor atornillar sus piezas a un escritorio de computadora o banco de trabajo, al menos estarían conectadas a tierra.

RAID suave y unidades baratas. Dada la caja de la tarjeta y las partes antiguas que se ven en la foto, parece que está utilizando unidades de escritorio estándar y un RAID suave. Las unidades de escritorio se pueden colocar en un controlador RAID, sin embargo, con el aumento de E / S en el disco, aumenta la posibilidad de una falla de disco. Los discos con imágenes en este caso no están en un controlador RAID de hardware, sino que se están agrupando con un componente de software en la placa base. Esto no es ideal para discos duros. Esto aumenta la carga de trabajo en su CPU, y se sabe que los RAID de software tienen errores y matan los discos duros prematuramente. Es probable que el RAID suave haya matado estas unidades por encima de todo.

Prevención para futuras compilaciones: si está leyendo esto y ve este viejo escenario de usuario a través de una pregunta de Google o no:

-asegúrese de que sus discos estén montados correctamente en un chasis de disco duro estable. Atornille sus discos con al menos 4 tornillos de disco duro, o use un trineo de disco especial que vaya con su chasis.

-Asegúrese de tener un flujo de aire adecuado en su estuche, los discos duros en un RAID tienden a tener más E / S en el disco y estarán mucho más calientes que si el volumen físico se monta individualmente.

-No use una fuente de alimentación barata. El poder sucio es un asesino de piezas costosas de la computadora. También asegúrese de que su fuente de alimentación proporcione suficiente potencia para manejar la carga de trabajo deseada.

-Utilice una tarjeta controladora RAID! Nunca use el RAID suave en su placa base. Los RAID suaves reducen el rendimiento del disco y aumentan la posibilidad de fallas en el disco más que la de una tarjeta controladora RAID.

-RAID en general aumenta la posibilidad de falla del disco debido al aumento de E / S en todos sus volúmenes. Cuanto mayor sea el conjunto de discos que se unirán, mayor será la posibilidad de que las unidades fallen. Si RAID sus unidades, utilice siempre unidades de paridad y repuestos dinámicos. Puede perder sus datos si RAID 0 2-3 discos. Si tiene 3 discos, ¡use RAID 5! 6 discos en RAID 5 (4 + 1) con repuesto dinámico son ideales si sus unidades están cubiertas por una garantía. Si no puede pagar más discos o sus discos están fuera de garantía, no use RAID.

-Las unidades de escritorio no son unidades empresariales. Las unidades de escritorio son similares a las unidades Enterprise, pero no están diseñadas para manejar grandes cargas de trabajo generadas con los controladores RAID. Si compra unidades de escritorio de newegg y las RAID en nuestra placa base, es probable que vea al menos una falla de unidad en su primer año. Cuanto más tiempo opere su máquina en un RAID, más E / S se escribirá en el disco y mayor será la probabilidad de que su volumen tenga fallas. Combine unidades baratas con RAID suave de la placa base barata y se sentirá perjudicado.

Es probable que este usuario haya experimentado todos estos factores en su servidor de caja de zapatos. Energía barata, flujo de aire defectuoso, unidades viejas y baratas que no están montadas correctamente en un chasis y un RAID suave de la placa base ... todo esto aumenta las posibilidades de una falla de disco.

usuario2809007
fuente
4

No puedo imaginar cómo tienes buena ventilación y enfriamiento en una caja de zapatos. ¿Realmente deberías pagar los 50 o 60 dólares por una caja de computadora real?

Las tiras de potencia solo protegen contra sobretensiones; Los problemas comunes para los equipos electrónicos son bajo voltaje (caída de tensión) y sobrevoltaje (pico). También es común el ruido EMI: hace un tiempo tuvimos una computadora inestable que resultó ser causada por tener una cinta de correr en el mismo circuito (personalmente verifiqué esto sin lugar a dudas). Pondría el módem fuera de línea y ocasionaría que el sistema se congelara de vez en cuando.

Además, la exposición continua al ruido y las fluctuaciones en la fuente de alimentación eventualmente daña la fuente de alimentación, con el tiempo, disminuyendo la calidad de la energía entregada a la electrónica.

EDITAR: las fluctuaciones de energía eléctrica se pueden aislar a circuitos específicos. Más importante aún, los electrodomésticos de alto consumo como microondas, refrigeradores, cintas de correr, estufas y similares pueden tener un impacto significativo en la calidad de la energía en ese circuito. Y cosas como los refrigeradores también tienen un ciclo continuo de operación de encendido / apagado que, al encender y apagar los picos, enciende la línea cuando el motor entra y sale.

Además, si está siendo atendido por la misma compañía eléctrica, pueden estar teniendo problemas continuos para suministrar voltaje en todos los ámbitos. La fluctuación constante entre 105V y 125V tendrá un efecto negativo en la electrónica (según tengo entendido).

Lawrence Dol
fuente
La caja no está cubierta y los discos duros tienen refrigeradores. Puede que una buena ventilación no sea el término correcto aquí, pero definitivamente no se está sobrecalentando, he verificado las temperaturas con smartmontools. Pero si el problema está relacionado con la electricidad, ¿las otras computadoras del hogar no causarían algunos síntomas? También estoy agregando a la pregunta ahora, que me he mudado a un nuevo lugar entre los 4 meses, por lo que es poco probable que haya problemas de electricidad en ambos lugares.
K. Norbert
Después de mudarse, es posible que aún tenga el mismo dispositivo en el mismo circuito que su computadora; También es posible que su PSU ya haya sido disparada, por lo que el daño ya puede estar hecho. Creo que comenzaría con la obtención de un UPS de bajo costo de filtración de energía (alrededor de $ 100) y luego reemplazaría inmediatamente la fuente de alimentación (alrededor de $ 60) en la computadora.
Lawrence Dol
2

Realmente suena como problemas de energía.

Si tiene sobretensiones, muchas regletas baratas solo funcionarán una vez, y generalmente no hay indicios de que ya no estén protegiendo.

Un buen UPS podría ayudar: algunos de los de gama alta en realidad generan energía de las baterías y se recargan continuamente, proporcionando energía completamente aislada. El único inconveniente es que pueden ser ruidosos.

Chris
fuente
¿No podría ser un problema de la tienda en la que lo está "llenando"? Tendería a intentarlo primero en algún lugar de la casa, a salvo de los voltios y los cables pelados.
mtone
De hecho, compré un UPS de acondicionamiento de energía de Costco por 100 dólares; la batería no es grande, proporciona solo lo suficiente para mantener mi módem de internet y mi cabina telefónica en funcionamiento, pero lo compré principalmente para acondicionar la fuente de alimentación de mi computadora.
Lawrence Dol
La caja está básicamente debajo de un estante, no está cubierta y no está cerca de ningún otro electrodoméstico. (aparte de un ps2 que ni siquiera está conectado a un cajero automático). Si es la electricidad, ¿no causaría algunos problemas en las otras PC también?
K. Norbert
Podría ser la energía que ingresa al edificio, podría ser algo más en la casa: la proximidad a un aparato que no funciona correctamente no es necesaria para afectar la energía. Puede ser que la fuente de alimentación sea marginal, por lo que está más afectada por la interferencia que las otras computadoras
Chris
2

En realidad, los fabricantes de discos duros no imprimen la información sobre las posiciones de trabajo en sus unidades, pero colocar las unidades de disco duro a sus lados está perfectamente bien. La última vez que verifiqué esa información, los discos se podían colocar planos o de lado, y hasta un ángulo de 5 o 10 grados desde estas posiciones. Colocarlos boca abajo o los conectores hacia arriba o hacia abajo no son posiciones legales. Los conectores hacia arriba o hacia abajo solían ser la mejor posición para el transporte hace unos 15 años. Esta es la última información que tengo sobre esto.

Estoy teniendo el mismo tipo de error en un nuevo disco duro verde WD de 500 GB, y sus cables SATA se parecen a los míos, y sospecho que son muy malos.

El problema de la conexión a tierra no es algo malo, los componentes deben conectarse a tierra mediante el montaje correcto en una carcasa metálica, pero no hacerlo no debería ser un problema si todos los conectores y cables están 100% bien.

Por supuesto, una fuente de alimentación defectuosa puede hacer muchas cosas malas en todo el sistema, probaría con una nueva fuente de alimentación lo antes posible, preferiblemente con todo montado en un chasis decente.

Buena suerte

Sergio Gaspar
fuente
1

Estoy de acuerdo en que el mal motivo es el probable culpable. Sin embargo, considere el sobrecalentamiento como una posible causa. Si las unidades están calientes al tacto, entonces están demasiado calientes. Ponles un abanico.

Chris Nava
fuente
Hay ventiladores en las unidades.
K. Norbert el
1

Puede verificar si se han sobrecalentado mirando los valores SMART. No es necesario conectar a tierra la carcasa, ya que muchos portadores de intercambio en caliente son de plástico y no están conectados a tierra. La conexión a tierra a través del cable SATA debería ser suficiente. Tenerlos firmemente montados PUEDE ayudar con los problemas de vibración. La cabeza no toca el plato, pero se desplaza un poco más arriba y el impacto en el plato puede causar la interrupción de partículas diminutas que eventualmente pueden causar choques en la cabeza.

chico del disco
fuente
0

¿Podría haber altavoces grandes, refrigeradores, aires acondicionados, motores eléctricos u otras fuentes magnéticas al lado de su caja de zapatos (sin blindaje)?

Consola
fuente
Lamentablemente no, nada.
K. Norbert
0

Estoy de acuerdo en que un mal terreno puede ser la causa de su tragedia de almacenamiento. Sin embargo, también "arreglaría" las unidades de disco duro con más fuerza, porque las vibraciones pueden provocar daños permanentes.

pistacho
fuente
0

Verifique los divisores de potencia que dividen la potencia de los ventiladores de la unidad. Un conector intermitente puede hacer que su unidad pierda energía en un momento crítico y se bloquee. Definitivamente necesita un caso de tierra firme entre MB, PSU y HD.

Steve
fuente
-3

Creo que colocar los discos duros a sus lados podría contribuir a que no funcionen correctamente porque, en la mayoría de los casos, los discos duros están montados de manera plana en las cajas de sus computadoras.

monstruo
fuente
2
Esta no es la causa. Los discos duros realmente no se preocupan por su orientación.
Dan D.