En este momento estoy usando estos valores:
# y = c * p / 100
# y: nagios value
# c: number of cores
# p: wanted load procent
# 4 cores
# time 5 minutes 10 minutes 15 minutes
# warning: 90% 70% 50%
# critical: 100% 80% 60%
command[check_load]=/usr/local/nagios/libexec/check_load -w 3.6,2.8,2.0 -c 4.0,3.2,2.4
Pero estos valores se seleccionan casi al azar.
¿Alguien tiene algunos valores probados?
monitoring
nagios
Sandra
fuente
fuente
standard
nitested
valor. Depende de la carga de trabajo de su servidor esperado. Si espera una carga alta, debe aumentar los valores. De lo contrario, su servidor siempre aparecerá en estado crítico.Respuestas:
La carga de Linux es realmente simple. Cada uno de los números promedio de carga es la suma de toda la carga promedio del núcleo. Es decir.
donde
0 < avg load < infinity
.Entonces, si una carga es 1 en un servidor de 4 núcleos, significa que cada núcleo se usa al 25% o un núcleo está al 100% bajo carga. Una carga de 4 significa que los 4 núcleos están bajo una carga del 100%. Una carga de> 4 significa que el servidor necesita más núcleos.
check_load
ahora tienenlo que significa que cuando se usa, puede pensar que su servidor tiene un solo núcleo y, por lo tanto, escribir el porcentaje de fracciones directamente sin pensar en el número de núcleos. Con
-r
la advertencia y se hacen intervalos críticos0 <= load avg <= 1
. Es decir. no tiene que modificar su advertencia y sus valores críticos de un servidor a otro.OP tiene 5,10,15 para intervalos. Eso está mal. Es 1,5,15.
fuente
Aunque es una publicación antigua, responde ahora porque sabía que los valores de umbral de check_load son un gran dolor de cabeza para los novatos ...;)
Una alerta de advertencia, si la CPU es 70% por 5 minutos, 60% por 10 minutos, 50% por 15 minutos. Una alerta crítica, si la CPU es 90% por 5 minutos, 80% por 10 minutos, 70% por 15 minutos.
Todos mis hallazgos sobre la carga de la CPU:
¿Qué quiere decir "la carga": Wikipedia dice:
Todos los sistemas Unix y similares a Unix generan una métrica de tres números de "promedio de carga" en el núcleo. Los usuarios pueden consultar fácilmente el resultado actual desde un shell de Unix ejecutando el comando uptime:
Del promedio de carga de salida anterior:
0.06, 0.11, 0.09
significa (en un sistema de CPU única):.
El promedio de carga anterior de
1.73 0.50 7.98
un sistema de CPU única como:Cálculo del valor umbral de Nagios:
Para la configuración de Nagios CPU Load, que incluye advertencia y crítica:
y = c * p / 100
Dónde:
y = nagios value
c = number of cores
p = wanted load procent
para un sistema de 4 núcleos:
Para un sistema de núcleo único:
y = p / 100
Dónde:
y = nagios value
p = wanted load procent
Un gran libro blanco sobre el análisis de la carga de la CPU por el Dr. Gunther http://www.teamquest.com/pdfs/whitepaper/ldavg1.pdf En este artículo en línea, el Dr. Gunther profundiza en el núcleo de UNIX para averiguar cómo promedios de carga (el "LA Triplets") se calculan y qué tan apropiadas son como métricas de planificación de capacidad.
fuente
A menos que los servidores en cuestión tengan una carga de trabajo asíncrona donde la profundidad de la cola sea la métrica de servicio importante para administrar, honestamente ni siquiera vale la pena monitorear el promedio de carga. Es solo una distracción de las métricas que importan, como el tiempo de servicio (tiempo de servicio y tiempo de servicio).
fuente
Un buen complemento también Nagios es una herramienta como Munin o Cacti, que graficarán los diferentes tipos de carga de trabajo que está experimentando su servidor. Ya se trate de load_average, uso de CPU, disco io u otra cosa.
Con esta información es más fácil establecer buenos valores de umbral en Nagios.
fuente
¿Sabe a qué promedio de carga afecta el rendimiento de su sistema? Tuvimos servidores en mi último trabajo que permanecían consistentemente en un promedio de carga de 35-40, pero aún respondían. Es una medida que debe hacer un poco de trabajo de detective para obtener números precisos.
Es posible que desee medir otras métricas en el sistema, como el tiempo de conexión promedio para SSH o http; Esto podría ser un mejor indicador de la carga de su sistema.
fuente
Para extender la respuesta de Invent Sekar: Cuando use check_load y porcentajes, creo que necesitará el argumento de línea de comando "-r" junto con los demás.
Por ejemplo:
fuente