¿Qué causa esto? pcieport 0000: 00: 03.0: Error del bus PCIe: AER / TLP incorrecto

20

Veo mensajes de error como estos a continuación:

Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple 
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, 
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: 
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP

Esto provocará una degradación del rendimiento aunque se hayan corregido (hasta ahora). Obviamente, este problema necesita ser resuelto. Sin embargo, no puedo encontrar mucho al respecto en Internet. (Tal vez estoy buscando en los lugares equivocados). Encontré solo unos pocos enlaces que publicaré a continuación.

¿Alguien sabe más sobre estos errores?

¿Es la placa base, el Samsung 950 Pro o la GPU (o alguna combinación de estos)?

El hardware es: Asus X99 Deluxe II Samsung 950 Pro NVMe en el M2. ranura en el mb (que comparte el puerto PCIe 3). Nada más está conectado al puerto PCIe 3. Una GeForce GTX 1070 en la ranura PCIe 1 CPU Core i7 6850K

Algunos de los enlaces que encontré mencionan el mismo hardware (X99 Deluxe II mb y Samsung950 Pro). Estoy ejecutando Arch Linux.

No encuentro la cadena "8086: 6f08" en journalctl ni en ningún otro lugar en el que haya pensado buscar hasta ahora.

mensaje de error impar con nvme ssd (TLP incorrecto): linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/

PCIe: ¿Su tarjeta está luchando silenciosamente con las retransmisiones TLP? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/

GTX 1080 arrojando errores de bus PCIe TLP incorrectos - Foros de GeForce https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/

controladores - Error de PCIe en el registro de dmesg - Pregunte a Ubuntu /ubuntu/643952/pcie-error-in-dmesg-log

780Ti X99 hard lock - Errores PCIE - NVIDIA Developer Forums https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/

MountainX para Monica Cellio
fuente
moví mi gtx 710 de la ranura pcie x16 a una ranura x1 (asus prime b450-plus, ryzen 5 3600, samsung nvme 970)
trants

Respuestas:

23

Puedo dar al menos algunos detalles, aunque no puedo explicar completamente lo que sucede.

Como se describe aquí , por ejemplo , la CPU se comunica con el controlador de bus PCIe mediante paquetes de capa de transacción (TLP). El hardware detecta cuando hay fallas, y el kernel de Linux lo informa como mensajes.

La opción del kernel pci=nommconfdeshabilita el espacio de configuración PCI mapeado en memoria, que está disponible en Linux desde el kernel 2.6. En términos generales, todos los dispositivos PCI tienen un área que describe este dispositivo (con el que puede ver lspci -vv), y el método original para acceder a esta área implica pasar por los puertos de E / S, mientras que PCIe permite que este espacio se asigne a la memoria para un acceso más simple.

Eso significa que en este caso particular, algo sale mal cuando el controlador PCIe usa este método para acceder al espacio de configuración de un dispositivo en particular. Puede ser un error de hardware en el dispositivo, en el controlador raíz PCIe en la placa base, en la interacción específica de esos dos, o algo más.

Al usar pci=nommconf, se accederá al espacio de configuración de todos los dispositivos de la manera original, y cambiar los métodos de acceso soluciona este problema. Entonces, si lo desea, lo resuelve y lo suprime.

dirkt
fuente
¿Puedo saber si es mi problema con la placa base? O mi problema con la CPU. ¿Debo cambiarlos?
user10024395
@ user2675516: No está relacionado con la CPU. Es un problema del controlador raíz PCIe (que a menudo está en Southbridge) y / o el controlador PCIe del dispositivo, o su interacción. Sí, cambiar la placa base por una con hardware diferente generalmente se deshace de ella.
dirkt
Cambié de asus e-ws a asus deluxe, pero el problema aún persiste. Por eso sospecho que es la CPU. ¿O es porque ambos son chipset X99?
user10024395
1
@ user2675516: si el conjunto de chips es el mismo, especialmente. el controlador PCIe, luego cambiar la placa base, por supuesto, no ayudará. Es por eso que escribí "placa base con hardware diferente ".
dirkt
el factor común para mí parece ser una placa base con el chipset X99
MountainX para Monica Cellio
3

Agregar la opción de línea de comando del kernel pci=nommconfresolvió el problema por mí. Por lo tanto, supongo que el problema está relacionado con la placa base. Sucede en todas mis computadoras equipadas con placa base X99. No sucede en los sistemas Z170 ni en ningún otro hardware que posea.

MountainX para Monica Cellio
fuente
1
Hola, también estoy enfrentando este problema. ¿Puedo saber qué hace pci-nommconf? ¿Es solo suprimir el problema o resolverlo?
user10024395
No puedo confirmar: obteniendo el error en z170i, ejecutando arch 4.13.12
sitilge
@sitilge: gracias por tu comentario. ¿Qué marca / modelo z170i? Mis placas base son Asus. Uno es X99 Deluxe II
MountainX para Monica Cellio
Es asus z170i pro gaming.
sitilge
3

Prueba estos pasos:

  1. cp /etc/default/grub ~/Desktop
  2. Editar grub. Añadir pci=noaeral final de GRUB_CMDLINE_LINUX_DEFAULT. La línea será así:

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer"
    
  3. sudo cp ~/Desktop/grub /etc/default/

  4. sudo update-grub
  5. Reinicie ahora
Ehtesham
fuente
Apliqué tu solución, pero en lugar de pci=noaerusarla pci=nommconfcomo lo sugirió @dirkt
user3405291
Gracias, pci = noaer arregló mi problema de slackware 14.2x64 instalado en una computadora portátil hp (la instalación de escritorio no exhibió este problema en absoluto)
John Forkosh
77
¿Te importaría elaborar un poco? ¿Qué hace esta opción y cómo espera que resuelva el problema?
Calimo
¿Por qué simplemente no lo usarías sudoeditpara una edición segura? -1 para esta copia aquí y allá, los pasos no tienen sentido
LinuxSecurityFreak
44
pci=noaersimplemente deshabilita el Informe avanzado de errores. Así que todavía tienes esos errores, simplemente no los ves ...
dirkt
2

Recibo los mismos errores (TLP incorrecto asociado con el dispositivo 8086: 6f08). Tengo X99 Deluxe II, Samsung 960 pro, Nvidia 1080 ti. Estos problemas parecen estar asociados con el chipset X99 y el dispositivo M.2, como Samsung Pro.

La placa base X99 Deluxe II comparte el ancho de banda entre la ranura PCIE16_3 y M.2 / U.2. Después del comentario de @Nic, en el BIOS cambié la configuración de los dispositivos integrados | U.2_2 Ancho de banda de Auto a U.2_2. Esto solucionó el problema para mí.

usuario1759557
fuente
¿Cómo determinaste que es solo ese chipset? ¿Has probado cualquier otro chipset? Ocurre en una amplia variedad de hardware.
doug65536
2

Cambié la configuración de la ranura PCIE16_3 en Bios en mi x99-E para que esté configurada de forma estática en modo x8 en lugar de automático, que es el valor predeterminado para la compatibilidad con dispositivos M.2. Funciona bien ahora sin errores de TLP en mis dos tarjetas 1070GTX conectadas a través de tarjetas de extensión PCIe 1x a 16x.

No utilicé el puerto 16_3 primero, me mudé a esa ranura para probar, pero aún tuve problemas antes de cambiar la BIOS. También se cambió la configuración de bsleep para todas las tarjetas a 30 en la configuración del minero.

Antes del cambio, tenía el registro del kernel lleno de fallas. También trató de apagar y encender el sistema antes y después del cambio. Parece ser bastante persistente.

Nic
fuente
2

Busque en el manual de su placa base "AER". Puede eliminar la fuente del problema corrigiendo la incompatibilidad específica o deshabilitando AER por completo. Solo use esto si todos los errores de spam se refieren a errores corregidos , de lo contrario podría estar ocultando un problema real.

N3V3N
fuente