He estado persiguiendo un problema de pérdida de paquetes y estabilidad de red para un puñado de usuarios finales en una red interna durante los últimos días ... Estos problemas surgieron la semana pasada, sin embargo, la ubicación fue golpeada por un rayo hace seis semanas.
Estaba viendo una pérdida de paquetes del 5-10% entre una pila de cuatro Cisco 2960 y varias PC y teléfonos en el otro lado de una carrera de 77 metros. Las PC se ejecutaron en línea con los teléfonos a través de un enlace troncal ( switchbin de configuración de puerto de conexión ). Estábamos viendo llamadas interrumpidas e interrupciones en las aplicaciones cliente-servidor y la conectividad de Microsoft Exchange.
Intenté los pasos habituales de solución de problemas de forma remota, haciendo que un técnico local haga lo siguiente durante los descansos en la actividad del usuario y la producción:
- cambie los cables entre el enchufe de pared y el dispositivo.
- cambie los cables de conexión entre el panel de conexiones y los puertos de conmutador.
- pruebe diferentes puertos de conmutador dentro de la pila 2960.
- cambiar dispositivos de usuario final con equipos conocidos (teléfonos nuevos, PC diferentes).
- borre los contadores de interfaz del puerto del conmutador y monitoree de cerca los errores de incremento ( Salida de Pastebin de
sh int
) - Estudió detenidamente los registros del dispositivo y los gráficos Observium RRD . No hay problemas de enlace arriba / abajo desde el lado del interruptor.
- cambiar las tomas de corriente en el lado del usuario final.
- el cable de prueba se ejecuta desde el Cisco 2960 usando
test cable-diagnostics tdr int Gi4/0/9
(limpio) * - el cable de prueba funciona con un probador de cable Tripp-Lite. (limpiar)
- ejecutar diagnósticos en los miembros de la pila de conmutadores. (limpiar)
Al final, se necesitaron tres cambios de puertos de switch para encontrar una solución estable. La única conclusión lógica es que algunos puertos del switch Cisco 2960 son malos o escamosos ... No están muertos, pero tampoco tienen un comportamiento consistente. No estoy acostumbrado a ver morir puertos individuales de esta manera.
¿Qué más puedo probar o verificar para determinar si estos dispositivos son malos?
¿Cuál es el enfoque de mejores prácticas para verificar esto?
¿Es común que los puertos individuales tengan problemas, en lugar de un banco contiguo de puertos?
Por cierto, show cable-diagnostics tdr int Gi4/0/14
es muy genial ...
Interface Speed Local pair Pair length Remote pair Pair status
--------- ----- ---------- ------------------ ----------- --------------------
Gi4/0/14 1000M Pair A 79 +/- 0 meters Pair B Normal
Pair B 75 +/- 0 meters Pair A Normal
Pair C 77 +/- 0 meters Pair D Normal
Pair D 79 +/- 0 meters Pair C Normal
fuente
Total output drops: 1461
Respuestas:
Si bien los bancos de puertos a menudo comparten un ASIC, cada uno debe tener su propia PHY separada. Si el PHY se ha dañado, podría tener un problema mientras que sus vecinos no.
Dicho esto, las caídas de salida son un síntoma extraño para un problema físico, no imposible, pero no típico. A pesar de los enlaces half duplex, las caídas de salida generalmente tienen más que ver con el agotamiento del búfer que con los problemas físicos.
Puede obtener más información configurando una captura de paquetes en el otro lado del cable. Se esperaría que un PHY malo se manifestara con cierto número de errores de capa física (CRC malo, runt / gigante, etc.) en uno o ambos lados del enlace.
En general, parece que has eliminado lo suficiente como para que haya pasado el punto de rendimientos decrecientes. Recomiendo una RMA si tienes un contrato.
fuente
Sí, un solo puerto puede ser malo, pero, según recuerdo, debe reemplazar todo el módulo. (Advertencia: ha pasado mucho tiempo desde que hice un trabajo significativo de Cisco ...)
No estoy seguro de si puede ayudar, pero echa un vistazo a FITB , por Laurie Denness, uno de los ingenieros de Ops en Etsy.
fuente