Veo mensajes de error como estos a continuación:
Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer,
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0:
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP
Esto provocará una degradación del rendimiento aunque se hayan corregido (hasta ahora). Obviamente, este problema necesita ser resuelto. Sin embargo, no puedo encontrar mucho al respecto en Internet. (Tal vez estoy buscando en los lugares equivocados). Encontré solo unos pocos enlaces que publicaré a continuación.
¿Alguien sabe más sobre estos errores?
¿Es la placa base, el Samsung 950 Pro o la GPU (o alguna combinación de estos)?
El hardware es: Asus X99 Deluxe II Samsung 950 Pro NVMe en el M2. ranura en el mb (que comparte el puerto PCIe 3). Nada más está conectado al puerto PCIe 3. Una GeForce GTX 1070 en la ranura PCIe 1 CPU Core i7 6850K
Algunos de los enlaces que encontré mencionan el mismo hardware (X99 Deluxe II mb y Samsung950 Pro). Estoy ejecutando Arch Linux.
No encuentro la cadena "8086: 6f08" en journalctl ni en ningún otro lugar en el que haya pensado buscar hasta ahora.
mensaje de error impar con nvme ssd (TLP incorrecto): linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/
PCIe: ¿Su tarjeta está luchando silenciosamente con las retransmisiones TLP? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/
GTX 1080 arrojando errores de bus PCIe TLP incorrectos - Foros de GeForce https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/
controladores - Error de PCIe en el registro de dmesg - Pregunte a Ubuntu /ubuntu/643952/pcie-error-in-dmesg-log
780Ti X99 hard lock - Errores PCIE - NVIDIA Developer Forums https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/
Respuestas:
Puedo dar al menos algunos detalles, aunque no puedo explicar completamente lo que sucede.
Como se describe aquí , por ejemplo , la CPU se comunica con el controlador de bus PCIe mediante paquetes de capa de transacción (TLP). El hardware detecta cuando hay fallas, y el kernel de Linux lo informa como mensajes.
La opción del kernel
pci=nommconf
deshabilita el espacio de configuración PCI mapeado en memoria, que está disponible en Linux desde el kernel 2.6. En términos generales, todos los dispositivos PCI tienen un área que describe este dispositivo (con el que puede verlspci -vv
), y el método original para acceder a esta área implica pasar por los puertos de E / S, mientras que PCIe permite que este espacio se asigne a la memoria para un acceso más simple.Eso significa que en este caso particular, algo sale mal cuando el controlador PCIe usa este método para acceder al espacio de configuración de un dispositivo en particular. Puede ser un error de hardware en el dispositivo, en el controlador raíz PCIe en la placa base, en la interacción específica de esos dos, o algo más.
Al usar
pci=nommconf
, se accederá al espacio de configuración de todos los dispositivos de la manera original, y cambiar los métodos de acceso soluciona este problema. Entonces, si lo desea, lo resuelve y lo suprime.fuente
Agregar la opción de línea de comando del kernel
pci=nommconf
resolvió el problema por mí. Por lo tanto, supongo que el problema está relacionado con la placa base. Sucede en todas mis computadoras equipadas con placa base X99. No sucede en los sistemas Z170 ni en ningún otro hardware que posea.fuente
Prueba estos pasos:
cp /etc/default/grub ~/Desktop
Editar grub. Añadir
pci=noaer
al final deGRUB_CMDLINE_LINUX_DEFAULT
. La línea será así:sudo cp ~/Desktop/grub /etc/default/
sudo update-grub
fuente
pci=noaer
usarlapci=nommconf
como lo sugirió @dirktsudoedit
para una edición segura? -1 para esta copia aquí y allá, los pasos no tienen sentidopci=noaer
simplemente deshabilita el Informe avanzado de errores. Así que todavía tienes esos errores, simplemente no los ves ...Recibo los mismos errores (TLP incorrecto asociado con el dispositivo 8086: 6f08). Tengo X99 Deluxe II, Samsung 960 pro, Nvidia 1080 ti. Estos problemas parecen estar asociados con el chipset X99 y el dispositivo M.2, como Samsung Pro.
La placa base X99 Deluxe II comparte el ancho de banda entre la ranura PCIE16_3 y M.2 / U.2. Después del comentario de @Nic, en el BIOS cambié la configuración de los dispositivos integrados | U.2_2 Ancho de banda de Auto a U.2_2. Esto solucionó el problema para mí.
fuente
Cambié la configuración de la ranura PCIE16_3 en Bios en mi x99-E para que esté configurada de forma estática en modo x8 en lugar de automático, que es el valor predeterminado para la compatibilidad con dispositivos M.2. Funciona bien ahora sin errores de TLP en mis dos tarjetas 1070GTX conectadas a través de tarjetas de extensión PCIe 1x a 16x.
No utilicé el puerto 16_3 primero, me mudé a esa ranura para probar, pero aún tuve problemas antes de cambiar la BIOS. También se cambió la configuración de bsleep para todas las tarjetas a 30 en la configuración del minero.
Antes del cambio, tenía el registro del kernel lleno de fallas. También trató de apagar y encender el sistema antes y después del cambio. Parece ser bastante persistente.
fuente
Busque en el manual de su placa base "AER". Puede eliminar la fuente del problema corrigiendo la incompatibilidad específica o deshabilitando AER por completo. Solo use esto si todos los errores de spam se refieren a errores corregidos , de lo contrario podría estar ocultando un problema real.
fuente