¿Son peligrosos estos errores SATA?

36

Recibo estos errores al azar, y no sé si es normal o no.

[39441.061856] ata3.00: failed to read SCR 1 (Emask=0x40)
[39441.061866] ata3.01: failed to read SCR 1 (Emask=0x40)
[39441.061892] ata3.15: exception Emask 0x10 SAct 0x0 SErr 0x280100 action 0x6 frozen
[39441.061897] ata3.15: irq_stat 0x08000000, interface fatal error
[39441.061904] ata3.15: SError: { UnrecovData 10B8B BadCRC }
[39441.061910] ata3.00: exception Emask 0x100 SAct 0x0 SErr 0x0 action 0x6 frozen
[39441.061917] ata3.01: exception Emask 0x100 SAct 0xe SErr 0x0 action 0x6 frozen
[39441.061923] ata3.01: failed command: READ FPDMA QUEUED
[39441.061933] ata3.01: cmd 60/a8:08:b0:48:62/00:00:00:00:00/40 tag 1 ncq 86016 in
[39441.061940] ata3.01: status: { DRDY }
[39441.061944] ata3.01: failed command: READ FPDMA QUEUED
[39441.061953] ata3.01: cmd 60/a8:10:b0:49:62/00:00:00:00:00/40 tag 2 ncq 86016 in
[39441.061959] ata3.01: status: { DRDY }
[39441.061963] ata3.01: failed command: READ FPDMA QUEUED
[39441.061972] ata3.01: cmd 60/58:18:58:4a:62/00:00:00:00:00/40 tag 3 ncq 45056 in
[39441.061978] ata3.01: status: { DRDY }
[39441.061987] ata3.15: hard resetting link
[39441.608302] ata3.15: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[39441.609090] ata3.00: hard resetting link
[39441.929246] ata3.00: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
[39441.929333] ata3.01: hard resetting link
[39442.249184] ata3.01: SATA link up 3.0 Gbps (SStatus 123 SControl 320)
[39442.263242] ata3.00: configured for UDMA/133
[39442.277570] ata3.01: configured for UDMA/133
[39442.277725] ata3: EH complete

También estoy pegando smartctl -apara sda , sdb y sdc .

Gracias de antemano por tu ayuda.

Marcos Junior
fuente

Respuestas:

16

Si bien estoy esencialmente de acuerdo con la respuesta de Geppettvs D'Constanzo , sugeriría que algunas de las primeras cosas que también podría intentar son

  1. Verificando que su cable SATA esté bien conectado y enchufado a los enchufes de la placa base y el disco duro.

  2. Reemplazar su cable SATA. Los cables SATA son (relativamente) económicos y a veces se obtiene uno " malo ". A menudo, simplemente reemplazar el cable es la forma más fácil de diagnosticar y resolver un problema como este.

(Aunque es algo inesperado que dos cables sean malos al mismo tiempo. Aún así, es algo fácil de verificar, por lo que, en mi opinión, probablemente valga la pena hacerlo).

Acabo de ver los contenedores que contienen los datos SMART para sus unidades. Observe la cantidad inesperadamente grande de errores CRC para unidades sdby sdc. Le sugiero que comience por verificar los cables y las conexiones de esas unidades.

junior@mediacenter:/$ sudo  smartctl -a /dev/sda
...
Model Family:     SAMSUNG SpinPoint M7E (AFT)
Device Model:     SAMSUNG HM321HI
...
199 UDMA_CRC_Error_Count    0x0036   200   200   000   Old_age  Always -    0

junior@mediacenter:/$ sudo  smartctl -a /dev/sdb
...
Model Family:     SAMSUNG SpinPoint F4 EG (AFT)
Device Model:     SAMSUNG HD204UI
...
199 UDMA_CRC_Error_Count    0x0036   100   100   000   Old_age  Always  -  57

junior@mediacenter:/$ sudo  smartctl -a /dev/sdc
...
Model Family:     SAMSUNG SpinPoint F4 EG (AFT)
Device Model:     SAMSUNG HD204UI
...
199 UDMA_CRC_Error_Count    0x0036   100   100   000   Old_age  Always  - 398

OKAY. Entonces no es un latpop entonces. ;-)
Por supuesto, si esto está sucediendo en una computadora portátil, ninguno de los anteriores se aplica y no estoy seguro de qué consejo ofrecer. ¿Quizás quitar y reinstalar el disco duro? ¿Quizás solo necesita volver a asentarse en su zócalo para mejorar la conexión?


sbdy sdcestán conectados en el mismo cable externo e-sata (Thermaltake Duo HDD Dock). Reemplazaré mi cable e-sata.

Podría deberse a un cable defectuoso o de baja calidad. También podría ser que el cable se mueva, golpee o empuje de alguna manera mientras se usa la unidad.

John irracional
fuente
1
sbdy sdcambos están conectados en el mismo cable externo e-sata (Thermaltake Duo HDD Dock). Reemplazaré mi cable e-sata.
Marcos Junior
9

Parece que tiene un cable de alimentación / datos SATA de mala calidad / dañado. Lo que puede estar causando un mal CRC. No son dañinos en absoluto y puedes vivir con ellos, pero pronto perderás muchos datos.

El informe SMART de sus unidades de disco duro parece sano, por lo que estoy preocupado por problemas de suministro de energía según mi experiencia al configurar 5 unidades de disco duro en el mismo caso / fuente de alimentación. Terminé de usar una fuente de alimentación externa (475 W) para 2 unidades y la caja de 600 W para todas las cajas, incluidas GPU, unidades ópticas y de disco duro.

De todos modos, le sugiero que ejecute una copia de seguridad completa antes de hacer cualquier otra cosa. Si es posible, clone su unidad de disco duro, después de lo cual debe verificar sus cables y voltajes de la fuente de alimentación.

Geppettvs D'Constanzo
fuente
Por curiosidad, ¿era esa GPU una GPU grande y hambrienta de poder?
John irracional
1
nVidia Quadro 4000, no tanto hambre.
Geppettvs D'Constanzo
1
Interesante. Tengo una fuente de alimentación Antec (Neo-Eco) de 400 vatios, 5 discos duros, 2 unidades ópticas y una NVIDIA GeForce 9500 GT y no creo que haya tenido ningún problema relacionado con la fuente de alimentación. Tengo errores de CRC en la unidad , pero creo que son de estúpidos errores de usuario que cometí hace un tiempo. (Golpear un cable y demás.) No he notado ningún registro de advertencia en mis mensajes del kernel . Aún así, supongo que debería vigilarlo más de cerca solo para estar seguro.
John irracional
1
1xIDE DVD-RW, 1xSATA DVD-RW y 1xSATA Blu-Ray ROM unidades ópticas de este lado. 4 SATA y 1 IDE HDD, la GPU tiene un consumo de energía de 142 vatios. No puedo decir que estoy absolutamente seguro de que se trataba de problemas con la fuente de energía, pero cuando agregué la nueva fuente de energía, los problemas desaparecieron. Por cierto, mis unidades parecen estar saludables. Pero gracias por hacerme ver eso. Su opinión es realmente apreciada en este lado. ¡Gracias!
Geppettvs D'Constanzo
1
Uh, 142 vatios para una GPU es ... algo. Todo mi sistema (generalmente) usa menos que eso. Mientras escribo esto, mi cuadro de escritorio está tirando ~ 117 vatios. (De acuerdo con Kill-A-Watt, me había olvidado que todavía lo tengo conectado. ;-)
irracional John
4

Parece haber un problema entre algunas versiones del kernel y algunos controladores SATA.

Recientemente comencé a sufrir un problema muy similar (no estoy seguro si es el mismo) en un servidor web que ejecuta Scientific Linux.

La información más precisa y completa que he encontrado sobre este problema es este error de la plataforma de lanzamiento .

En resumen: deshabilitar NCQ parece ser la mejor solución para los usuarios que tienen este problema.

jap1968
fuente
3
Deshabilitar NCQ es una solución común para el hardware defectuoso. No parece haber un error del kernel.
psusi
¡Santo $ #! + Que funcionó! ¡Todos mis mensajes de error desaparecieron y mi sistema dejó de fallar! No estoy totalmente de acuerdo con que no haya un error del kernel, ya que puedo usar una versión anterior del kernel (hasta al menos la serie 2.6) sin fallas. ¡No puedo creer que no haya encontrado esto antes!
reukiodo
1

Esto es casi siempre un mal disco, tengo miles de unidades que usamos y aunque estos errores nunca hacen que la unidad falle, han resultado en la corrupción del sistema de archivos. Creo que realmente tiene que ver con un problema con la placa del controlador en la unidad.

He intentado todo para resolver este problema, la solución es reemplazar la unidad y las cosas funcionan en los mismos cables y controladores.

Buena suerte

usuario209235
fuente
Después de más de 30 años de solucionar estos problemas para vivir, puedo asegurarle que, en mi experiencia, esto casi siempre es un cable dudoso. Y como son baratos, intenta eso primero.
Élder Geek
0

Sé que este hilo es antiguo, pero recientemente encontré el mismo problema en una máquina recién comprada con 6 ranuras sata. Instalé el cdrom y el disco duro en 2 ranuras sata cercanas entre sí y luego procedí a instalar ubuntu sin errores hasta que reinicié, luego vi el ata8: error de enlace de restablecimiento completo. La máquina se detiene hasta este punto, nunca se recuperó. Intenté reiniciar varias veces y no funcionó. Y luego intenté reemplazar el disco duro en una de las 4 ranuras disponibles y funcionó bien sin problemas.

ultrajohn
fuente
Quiere decir que cambió el puerto SATA en el que estaba conectado el disco duro, ¿verdad? ¿O te refieres a reemplazar todo el disco duro por otro? Creo que es lo primero, pero solo verificando dos
veces
Es lo primero.
ultrajohn
0

Tuve el mismo problema: en mi caso, esto se debió a que el adaptador de alimentación de 4 pines a SATA no se enchufó perfectamente.

Andrei Pokrovsky
fuente
0

Yo tuve el mismo problema. Había intentado todo pero solo en el puerto j-micron de mi asus p5k no tenía los errores.

Pero cuando puse el disco a otra fuente de alimentación, funcionó y los errores desaparecieron. Luego puse la unidad de nuevo a su fuente de alimentación original, pero un nuevo conector de alimentación y eso también funcionó.

Martin Van Der Meulen
fuente
0

Sé que este hilo es antiguo, pero me encontré con el mismo problema, vino aquí desde google.

  • conseguir ata3.01: failed command: READ FPDMA QUEUEDen el arranque del LiveCD Kubuntu 16.04.
  • WINDOWS 7 se comportará de manera irregular, funciona bien por un tiempo, pero se congela después de ver youtube.

Cambiar el cable SATA no hizo nada.
Reemplazó la fuente de alimentación y el problema desapareció.

marco_roboto
fuente
0

Es poco probable que este error dañe su disco duro, pero es muy probable que corrompa sus sistemas de archivos. Comience por determinar qué unidad está arrojando los errores. Esto generalmente se determina fácilmente mediante una serie de enfoques, tales como:

1) Emitir el comando dmesg | grep ata3y buscar la marca y modelo del disco duro. (como ata3 es el puerto que arroja el error en su situación. Ajuste en consecuencia) esto proporcionará una salida similar a esta:

dmesg | grep ata3
[    4.756081] ata3: SATA max UDMA/133 abar m2048@0xf7f26000 port 0xf7f26200 irq 135
[    5.071981] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[    5.077850] ata3.00: HPA detected: current 1953523055, native 1953525168
[    5.077959] ata3.00: ATA-8: SAMSUNG HD103SJ, 1AJ10001, max UDMA/133
[    5.077960] ata3.00: 1953523055 sectors, multi 16: LBA48 NCQ (depth 32), AA
[    5.084057] ata3.00: configured for UDMA/133

Un vistazo rápido indica que la unidad conectada a ata3 es el SAMSUNG HD103SJ

2) Ejecute el siguiente comando:

find -L /sys/bus/pci/devices/*/ata*/host*/target* -maxdepth 3 -name "sd*" 2>/dev/null | egrep block |egrep --colour '(ata[0-9]*)|(sd.*)'

Esto proporcionará los puertos y los nombres de dispositivos resaltados en la misma línea como se ve a continuación:

salida

Es fácil ver que al dispositivo conectado a ata3 se le ha asignado el nombre de dispositivo sdb

3) instale lsscsi con sudo apt install lsscsiy emita el comandolsscsi

$ lsscsi
[0:0:0:0]    cd/dvd  ATAPI    iHAS124   F      CL9M  /dev/sr0 
[1:0:0:0]    disk    ATA      WDC WD2003FZEX-0 1A01  /dev/sda 
[2:0:0:0]    disk    ATA      SAMSUNG HD103SJ  0001  /dev/sdb 
[3:0:0:0]    disk    ATA      ST6000VN0033-2EE SC60  /dev/sdc 

Tenga en cuenta que la primera entrada en cada línea de arriba es scsi_host, channel, target_number y LUN. Se coloca entre paréntesis y cada elemento está separado por dos puntos. Cuando hay varios dispositivos SCSI, sus entradas se ordenan en orden ascendente.

Simplemente agregando 1 al primer número en cada línea de salida le da el puerto ATA. Puede encontrar más detalles lsscsi aquí y aquí.

Dado que en su caso estamos viendo errores en 3.00 y 3.01, tiene más de una unidad conectada al mismo puerto ATA. Deberá verificar cuidadosamente la conectividad con ata3.00 y ata3.01. Esto podría ser un gabinete de unidad de compartimiento múltiple conectado al mismo cable. Dado que ambas unidades están arrojando errores, reemplazar el cable a la bahía de unidades múltiples antes mencionada debería eliminar el problema para ambas unidades. Estos dispositivos generalmente tienen una fuente de alimentación externa que también podría ser el culpable y debe reemplazarse, pero el cable (que es el enlace más débil) es, con mucho, la causa más probable del problema.

Fuentes:

Experiencia

https://linux.die.net/man/8/lsscsi

http://sg.danny.cz/scsi/lsscsi.html

https://serverfault.com/questions/244944/linux-ata-errors-translating-to-a-device-name/868943#868943

Elder Geek
fuente