Hola habitantes de la falla del servidor
Tengo un problema irritante con una LAN de aproximadamente 100 computadoras, 2 servidores de dominio de Windows y 12 teléfonos VoIP. Desde su instalación hace aproximadamente un año, cada semana más o menos, notamos que un teléfono VoIP se reinicia, ocasionalmente en medio de una llamada. Simultáneamente, a menudo hay signos de pérdida temporal de conexión en las computadoras: congelaciones en el explorador al acceder a recursos compartidos de red, errores en nuestro software de administración debido a la pérdida de conexión al servidor de la base de datos.
He estado haciendo un monitoreo de Wireshark en la conexión entre la PBX VoIP y el resto de la red. Wireshark recoge un grupo de paquetes TCP retransmitidos en los momentos en que grabamos los reinicios del teléfono. El registro de Wireshark muestra alrededor de 2 grupos de retransmisiones al día que van desde 5 paquetes hasta cientos. Los que están en cada grupo se encuentran principalmente entre la central y algunos conjuntos de teléfonos VoIP, pero no siempre son el mismo conjunto. A menudo, las retransmisiones al mismo tiempo son a teléfonos conectados al mismo conmutador, pero a veces las retransmisiones ocurren juntas a teléfonos en extremos opuestos de la red. Por lo general, hay algunas retransmisiones coincidentes al pasar el tráfico TCP, por ejemplo, entre las máquinas cliente y los servidores de archivos.
Los picos en las retransmisiones y los reinicios del teléfono no se correlacionan bien con cuando la red está muy cargada. Parecen ocurrir un poco más durante el día, pero más en la noche, cuando el tráfico debería estar disminuyendo. Ocurren razonablemente a menudo a altas horas de la noche cuando la mayoría de las computadoras están apagadas y el tráfico debe ser más bajo.
¿Tiene alguna idea que pueda ayudar a diagnosticar la causa de problemas como este? Una cosa que aún no he probado, pero que debería haber hecho, es actualizar el firmware de todos los conmutadores.
fuente
Respuestas:
Las retransmisiones de TCP generalmente se deben a la congestión de la red. Busque una gran cantidad de paquetes de difusión en el momento en que se produce el problema. Si el porcentaje de tráfico de difusión en su captura supera el 3% del tráfico total capturado, entonces definitivamente tiene congestión. Busque transmisiones de capa física (ARP) y de capa de red (resolución de nombre) en la red. Si encuentra un gran volumen de tráfico de difusión, puede rastrearlo a la fuente desde los datos de captura.
fuente
arp
- y solo para ver las transmisiones, usando un filtro deeth.addr==ff:ff:ff:ff:ff:ff
La recopilación de estadísticas de tráfico para sus conmutadores puede mostrar que tiene períodos en los que está funcionando a su capacidad o cerca de ella. Esto puede conducir a reintentos cuando las respuestas no regresan dentro del tiempo de espera inicial (a menudo 3 segundos). Esto aumenta la congestión momentáneamente hasta que se activan los mecanismos de mitigación de la congestión.
Busque personas que utilicen medios de transmisión, ya que pueden absorber el ancho de banda rápidamente.
Es posible que pueda mitigar el problema de los teléfonos mediante la configuración del tráfico. Esto solo moverá el problema a otros usuarios.
fuente
Suena como un bucle de árbol de expansión o una tormenta de transmisión para mí, especialmente si las retransmisiones y los problemas están localizados en el mismo interruptor (que difiere). Cuando sucede, ¿cuáles son los estados del puerto en su dispositivo L2? ¿Probablemente un mal cambio o malas prioridades del puente raíz? Interesante problema
fuente
Probablemente haya resuelto esto ya que ha pasado tanto tiempo, pero esencialmente necesita habilitar el "puerto rápido" en los puertos que tienen puntos finales (teléfonos voip, estaciones de trabajo, servidores). Un teléfono puede enviar PDU, por lo que si ese tipo se reinicia, provocará una convergencia de STP, lo que provocará que la tabla FDB se vacíe y que todos los dispositivos pasen por la diversión STP de 4/5 pasos. Al poner los puertos con punto final en "puerto rápido", se saltan la espera y pasan directamente al modo de reenvío.
fuente
¿Esperamos que sus teléfonos estén en una subred y VLAN diferentes de las otras computadoras?
fuente
También podría ser un equipo defectuoso, como un interruptor defectuoso. ¿Las retransmisiones se correlacionan con teléfonos / computadoras en un conmutador en particular o parte de la red?
Solo para extender un poco mi respuesta. No todos los interruptores se crean de la misma manera, incluso si tienen las mismas especificaciones. Algunos pueden hacer frente a una carga mucho mayor que otros porque tienen procesadores más rápidos en su interior. Puede ser que sus interruptores no estén a la altura.
Comenzaría por poner algunos de sus teléfonos VOIP más problemáticos en su propio interruptor físico y ver si los reinicios continúan. Si desaparece, entonces estás en el camino para resolverlo muy pronto.
fuente