¿Está mal mi puerto de switch Cisco?

He estado persiguiendo un problema de pérdida de paquetes y estabilidad de red para un puñado de usuarios finales en una red interna durante los últimos días ... Estos problemas surgieron la semana pasada, sin embargo, la ubicación fue golpeada por un rayo hace seis semanas.

Estaba viendo una pérdida de paquetes del 5-10% entre una pila de cuatro Cisco 2960 y varias PC y teléfonos en el otro lado de una carrera de 77 metros. Las PC se ejecutaron en línea con los teléfonos a través de un enlace troncal ( switchbin de configuración de puerto de conexión ). Estábamos viendo llamadas interrumpidas e interrupciones en las aplicaciones cliente-servidor y la conectividad de Microsoft Exchange.

Intenté los pasos habituales de solución de problemas de forma remota, haciendo que un técnico local haga lo siguiente durante los descansos en la actividad del usuario y la producción:

cambie los cables entre el enchufe de pared y el dispositivo.
cambie los cables de conexión entre el panel de conexiones y los puertos de conmutador.
pruebe diferentes puertos de conmutador dentro de la pila 2960.
cambiar dispositivos de usuario final con equipos conocidos (teléfonos nuevos, PC diferentes).
borre los contadores de interfaz del puerto del conmutador y monitoree de cerca los errores de incremento ( Salida de Pastebin desh int )
Estudió detenidamente los registros del dispositivo y los gráficos Observium RRD . No hay problemas de enlace arriba / abajo desde el lado del interruptor.
cambiar las tomas de corriente en el lado del usuario final.
el cable de prueba se ejecuta desde el Cisco 2960 usando test cable-diagnostics tdr int Gi4/0/9(limpio) *
el cable de prueba funciona con un probador de cable Tripp-Lite. (limpiar)
ejecutar diagnósticos en los miembros de la pila de conmutadores. (limpiar)

Al final, se necesitaron tres cambios de puertos de switch para encontrar una solución estable. La única conclusión lógica es que algunos puertos del switch Cisco 2960 son malos o escamosos ... No están muertos, pero tampoco tienen un comportamiento consistente. No estoy acostumbrado a ver morir puertos individuales de esta manera.

¿Qué más puedo probar o verificar para determinar si estos dispositivos son malos?

¿Cuál es el enfoque de mejores prácticas para verificar esto?

¿Es común que los puertos individuales tengan problemas, en lugar de un banco contiguo de puertos?

Por cierto, show cable-diagnostics tdr int Gi4/0/14es muy genial ...

Interface Speed Local pair Pair length        Remote pair Pair status
--------- ----- ---------- ------------------ ----------- --------------------
Gi4/0/14  1000M Pair A     79   +/- 0  meters Pair B      Normal              
                Pair B     75   +/- 0  meters Pair A      Normal              
                Pair C     77   +/- 0  meters Pair D      Normal              
                Pair D     79   +/- 0  meters Pair C      Normal

networking cisco hardware switch cisco-catalyst ewwhite
fuente

¿Podría agregar "show interface gi4 / 0/9" ... también su salida tdr es de gi4 / 0/14 ... cuántos puertos tienen el problema?

Mike Pennington el

@MikePennington 4 de las 48 interfaces mostraban problemas. Los contadores han sido borrados. Pero el único contador que se incrementó fue:Total output drops: 1461

ewwhite

¿1461 gotas de un total de cuántos paquetes de salida? ¿Los cuatro puertos problemáticos muestran caídas de salida?

Mike Pennington

@MikePennington Interfaz de salida de pastebin para dos de los puertos con problemas.

ewwhite

No es una respuesta técnica pero ... ¿tiene un contrato TAC activo? En caso afirmativo, participe: P

ItsGC

Respuestas:

Si bien los bancos de puertos a menudo comparten un ASIC, cada uno debe tener su propia PHY separada. Si el PHY se ha dañado, podría tener un problema mientras que sus vecinos no.

Dicho esto, las caídas de salida son un síntoma extraño para un problema físico, no imposible, pero no típico. A pesar de los enlaces half duplex, las caídas de salida generalmente tienen más que ver con el agotamiento del búfer que con los problemas físicos.

Puede obtener más información configurando una captura de paquetes en el otro lado del cable. Se esperaría que un PHY malo se manifestara con cierto número de errores de capa física (CRC malo, runt / gigante, etc.) en uno o ambos lados del enlace.

En general, parece que has eliminado lo suficiente como para que haya pasado el punto de rendimientos decrecientes. Recomiendo una RMA si tienes un contrato.

rnxrx
fuente

Dado que esto ocurre en múltiples puertos en múltiples (2) conmutadores, pero solo para un pequeño subconjunto de usuarios, ¿es este un caso en el que necesitaría reemplazar los cuatro conmutadores? Simplemente tengo dificultades para presionar por el reemplazo sin conocer el problema central, ya que el reemplazo requerirá un tiempo de inactividad considerable, recableado, etc.

ewwhite

El rayo es un animal muy extraño y su daño puede manifestarse mucho más tarde e impredeciblemente. El tiempo de inactividad apesta, por supuesto, pero podría mejorarse un poco colocando el interruptor de reemplazo, moviendo los parches y luego retirando los viejos. Desearía que hubiera una respuesta más fácil, pero si ha aislado el problema en algunos puertos, entonces no hay mucho más por hacer.

rnxrx

El PHY casi siempre está integrado en el ASIC en estos días. Es simplemente más barato. Los imanes son la única parte que realmente no pueden integrar en el ASIC, que podrían dañarse, pero esa no es la PHY. Además, es bastante común usar magnetismo de conjunto cuádruple, por lo que si el problema está en 4 puertos, se presta a esta teoría.

Chris S

En realidad, no: si revisa la arquitectura de la mayoría de los conmutadores Cisco (incluido el en cuestión), los mismos ASIC a menudo se usan para uno o dos GE de fibra o cobre o alguna agrupación de 100TX. Mucha más funcionalidad se traslada al ASIC en las arquitecturas de conmutación en chip, pero en esos casos todavía hay una capa física manejada por una óptica enchufable o algún tipo de medio de cobre. Dado que el mismo complejo ASIC a menudo puede manejar una cantidad de diferentes requisitos de velocidad y potencia, ¿no tiene mucho sentido integrar esta función en el mismo giro?

rnxrx

Finalmente reemplazó todos los conmutadores después de que se degradaran demasiados puertos hasta el punto de ser inutilizables. Finalmente, un buen uso para SmartNet!

ewwhite

Sí, un solo puerto puede ser malo, pero, según recuerdo, debe reemplazar todo el módulo. (Advertencia: ha pasado mucho tiempo desde que hice un trabajo significativo de Cisco ...)

No estoy seguro de si puede ayudar, pero echa un vistazo a FITB , por Laurie Denness, uno de los ingenieros de Ops en Etsy.

gWaldo
fuente