Tengo la configuración de monitoreo en varios dispositivos en nuestra oficina. El tiempo de respuesta de ping a los conmutadores de acceso pequeños es comúnmente de 1-4 ms ... A partir de las 3 a.m. de esta mañana, esto se ha disparado a 300 ms en promedio.
¿Dónde se empieza a mirar en una situación como esta? ¿Qué cosas puedo observar en el interruptor para encontrar la fuente de latencia?
NOTA: No está relacionado con la carga ... todos los enlaces de ancho de banda son normales y no se ven afectados, la mayoría de los enlaces están muy infrautilizados. Además, el monitoreo es local para los dispositivos que informan la latencia, por lo que no hay factor WAN aquí.
show proc cpu history
para el conmutador con los tiempos de ping altos. Si esa CPU es consistentemente alta, o se dispara regularmente, ejecuteshow proc cpu sort
Respuestas:
Primero, la latencia no está directamente relacionada con el ancho de banda. Hay muchas razones por las cuales un dispositivo retrasaría un paquete que no sea un enlace congestionado.
¿Has intentado una traceroute? Esto le mostrará la latencia entre saltos, si está buscando un límite L3 como sospechoso.
También puede verificar si alguno de los dispositivos en la ruta tiene un uso significativo de CPU / RAM.
fuente
Si esto se basa únicamente en la LAN, hay algunas cosas que puede hacer para comenzar y tratar de descubrir qué está causando esto:
Comando Show process cpu history : si el uso de la CPU es muy alto, entonces necesita ver qué proceso está causando esto y quizás golpear google con el proceso ofensivo.
comando show debug : una causa común que he encontrado es que las personas dejan comandos de depuración ejecutándose en el switch. Un favorito común era la contabilidad IP que se dejaba en dispositivos que ya estaban sobreutilizados. Use "undebug all" para deshacerse de los debugs.
Reinícielo : probablemente no durante el día, pero use el comando "recargar" para programarlo por la noche o durante el fin de semana. Te sorprendería cuántos problemas puede solucionar un reinicio rápido.
cerrar puertos troncales : si se trata de un conmutador L3, otro problema común que he visto es demasiado tráfico al usar este dispositivo para el enrutamiento entre VLAN. Si es posible, cierre temporalmente algunos de los puertos troncales para ver si esto reduce la latencia.
Es bueno tener en cuenta que sus pings son de baja prioridad, en lo que respecta a la latencia y también cuando la CPU los procesa. También podría ser una buena idea verificar la configuración de QoS y asegurarse de que no haya errores tontos que causen esto, por poco que sea poco probable.
fuente
Utilizo cactus para monitorear el ancho de banda y openNMS para monitorear la latencia. Si está monitoreando todos los dispositivos vinculados a este interruptor, puede ver un corolario entre el uso y la latencia. (Sé que dijiste que no es un problema de ancho de banda, pero nunca lo has hecho ahora). He visto interruptores de gama baja que se hunden con un uso intensivo, lo que causa mucha latencia. ¿Tiene algún dispositivo "tonto" que alimente este conmutador que pueda ser la fuente del hundimiento a pesar de que este conmutador no pasa mucho tráfico? Además, con Cacti puede sondear el uso de la CPU y puede ver un pico en el momento de la latencia.
Como se mencionó anteriormente, MTR o neotrace también son útiles para vigilar la situación y puede ver dónde comienza la latencia, que puede no ser este cambio en sí.
fuente
Si esto no está sucediendo en LAN, podría limitar el rendimiento del "puerto wan", esto forzará un mejor TDM. Pruebe algo alrededor del 80% de su rendimiento máximo y vea si le ayuda. Es posible que necesite modificar la cantidad de terminales.
fuente