如何分析系统平均负载过高的原因_线上cpu负载过高如何排查

如何分析系统平均负载过高的原因_线上cpu负载过高如何排查前言我相信你应该用过uptime命令查询系统负载的情况,或者在各种监控终端上看到过系统load这一项,但是每次问别人到底什么是系统load?系统load到达多少算过高?又有哪些原因会造成系统load过载?我发现很少有人能回答清楚,大多数都觉得系统load过载就表示CPU使用率过载、然而实际上并不完全这样的,本文就来仔细分析一下到底有哪些原因会造成系统load过载!uptime命令还是先来看看uptime命令,…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

前言

我相信你应该用过uptime命令查询系统负载的情况,或者在各种监控终端上看到过系统load这一项,但是每次问别人到底什么是系统load?系统load到达多少算过高?又有哪些原因会造成系统load过载?我发现很少有人能回答清楚,大多数都觉得系统load过载就表示CPU使用率过载、然而实际上并不完全这样的,本文就来仔细分析一下到底有哪些原因会造成系统load过载!

uptime命令

还是先来看看uptime命令,
在这里插入图片描述
通过uptime命令可以观察到 load average(平均负载),三个数字分别表示过去1分钟、5分钟、15分钟的系统平均负载。

平均负载

提到平均负载,大多数人都认为就是系统单位时间内CPU的使用率,比如上面的0.02就表示过去5分钟系统CPU使用率为2%,很明显这样的理解是不正确的,不要以为负载和CPU使用率有什么关系。

我们可以通过man uptime介绍,来看看官方对于平均负载的定义是怎样的。

在这里插入图片描述
其中如下这段定义表明了什么是平均负载

System load averages is the average number of processes that are either in a  runnable  or  uninterruptable  state

System load averages是处于可运行不可中断状态的进程的平均数。

那什么是可运行和不可中断呢?这里需要解释一下。

所谓可运行是指正在使用 CPU 或者正在等待 CPU 的进程,也就是我们常用 ps 命令看到的,处于 R 状态(Running 或 Runnable)的进程。
在这里插入图片描述
不可中断是处于不间断状态的进程,此流程是不可打断的,比如最常见的是等待磁盘设备的 I/O 响应,也就是我们在 ps 命令中看到的 D 状态(Uninterruptible Sleep,也称为 Disk Sleep)的进程。

所以,平均负载更准确的定义应该是单位时间内活跃进程数的指数衰减平均值。

平均负载到底是多少才合理

既然我们知道平均负载实际就是活跃的进程数,那最理想的状态下应该就是每颗CPU上刚好运行一个进程,这样才能充分的利用CPU,比如平均负载如果为2时,如果只有1颗CPU,则表示有一半的进程争抢不到CPU,如果有2颗CPU,则表示每颗CPU都得到了100%的利用,如果有4颗CPU,则表示CPU利用率只有50%。

一般情况下,当平均负载高于CPU数量70%时,就应该需要排查负载高的原因了,当然70%是一个经验值,冗余30%也是为了应对一些突发状况,或者系统短时高峰的场景,为了确保系统的稳定性,我们应当持续观察系统每天的负载情况,对负载进行实时监控,当持续出现负载异常时能够自动告警。

平均负载和CPU的关系

前面已经做过说明,平均负载高不一定就会带来CPU使用率高,因为平均负载表示的含义是,可运行或不可中断状态的进程,如果负载高是因为可运行进程造成的,那就会造成CPU使用率也高,但如果负载高是因为不可中断进程造成的,那CPU使用率是不会很高的。

CPU与进程1比1,CPU使用率高导致负载变高

使用stress来模拟平均负载高的情况

运行命令

stress --cpu 1

负载变高
在这里插入图片描述

CPU达到100%
在这里插入图片描述

I/O高,导致负载高

使用stress-ng,模拟I/O压力导致负载高的场景

运行命令

stress-ng -i 4 --hdd 1 --timeout 600

负载变高
在这里插入图片描述

CPU使用率并不高,但是iowait变的很高在这里插入图片描述

进程数超过CPU数,导致负载高

运用命令

 stress -c 8

负载变高
在这里插入图片描述

单个CPU使用率并不高
在这里插入图片描述

大多数都消耗在wait上,也就是等待CPU的时间上
在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/194435.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 虚拟机fedora安装教程_潜水艇下水器安装图解

    虚拟机fedora安装教程_潜水艇下水器安装图解图解VMware下安装Fedora12前提条件1.安装了VMware2.下载Fedora12下载地址:http://fedoraproject.org/get-fedora  安装过程如下 1.启动新建虚拟机 2.选择Fedora12的ISO安装文件 3.选择虚拟机安装位置 4.设置虚拟机空间大小 5.设置虚拟机

    2022年9月20日
    0
  • JAVA – 虚函数、抽象函数、抽象类、接口

    JAVA – 虚函数、抽象函数、抽象类、接口1. Java虚函数虚函数的存在是为了多态。C++中普通成员函数加上virtual关键字就成为虚函数Java中其实没有虚函数的概念,它的普通函数就相当于C++的虚函数,动态绑定是Java的默认行为。如果Java中不希望某个函数具有虚函数特性,可以加上final关键字变成非虚函数PS: 其实C++和Java在虚函数的观点大同小异,异曲同工罢了。 2. Java抽象函数(纯虚函…

    2022年6月13日
    25
  • 怎么新建pytest的ini文件_go读取配置文件

    怎么新建pytest的ini文件_go读取配置文件前言pytest配置文件可以改变pytest的运行方式,它是一个固定的文件pytest.ini文件,读取配置信息,按指定的方式去运行查看pytest.ini的配置选项pytest-h找到以下

    2022年7月28日
    5
  • javascript 数组排序,找到相同元素[通俗易懂]

    javascript 数组排序,找到相同元素[通俗易懂]小白前端一个,公司项目,里面有一个数组增加,删除,去重,排序,找到相同元素个数等等…这是冒泡排序vararr=[10,20,1,2];vart;for(vari=0;i<arr.length;i++){for(j=i+1;j<arr.length;j++){if(arr[i]>arr[j]){t…

    2022年5月1日
    61
  • Hybrid App 和 React Native 开发那点事

    Hybrid App 和 React Native 开发那点事简介:HybridApp(混合模式移动应用)开发是指介于Web-app、Native-App这两者之间的一种开发模式,兼具「NativeApp良好用户交互体验的优势」和「WebApp跨平台开发的优势」。很多人都知道,ReactNative是Facebook开源的框架,可以直接用Javascript开发原生的APP,本文则会围绕开发中的具体实践问题进行讨论。

    2025年6月21日
    0
  • openCV人脸识别简单案例[通俗易懂]

    openCV人脸识别简单案例[通俗易懂]1基础我们使用机器学习的方法完成人脸检测,首先需要大量的正样本图像(面部图像)和负样本图像(不含面部的图像)来训练分类器。我们需要从其中提取特征。下图中的Haar特征会被使用,就像我们的卷积核,每一个特征是一个值,这个值等于黑色矩形中的像素值之后减去白色矩形中的像素值之和。Haar特征值反映了图像的灰度变化情况。例如:脸部的一些特征能由矩形特征简单的描述,眼睛要比脸颊颜色要深,鼻梁两侧比鼻梁颜色要深,嘴巴比周围颜色要深等。Haar特征可用于于图像任意位置,大小也可以任意改变,所以矩形特征值是

    2022年5月28日
    46

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号