公司测试环境k8s节点故障解决

公司测试环境k8s节点故障解决

测试环境

ip地址 信息
192.168.1.215 k8s主节点 、etcd
192.168.1.216 k8s从节点、etcd
192.168.1.139 kvm

报错
从215服务器上面可以看到使用k8s的命令就是没反应
要不就是回复的是时间超时!连接不上!
尝试命令kubectl get podskubectl get nodes等没反应超时!
这个时候我们可以看看集群状态可以看到etcd处于宕机状态

#如果这个执行不成功的话那就执行看看etcd的健康状态
etcdctl cluster-health

发现其中etcd集群都处于宕机状态,最起码要有两个节点是存活的才能保证集群正常运行!
由于可能服务器ssh登录服务器可能会慢
尝试登录139服务器,215和216服务器都是从129虚出来的直接登录用过kvm的命令进行执行重启服务器
那么到了139服务器之后先看一下KVM虚拟机都有哪些
virsh list –all
可以看到服务器的列表

[root@zlw ~]# virsh list --all
 Id    Name                           State
----------------------------------------------------
 50    windows_server_2008_r2         running
 57    k8s_node02                     running
 70    docker5.tec.net                running
 71    k8s_node03                     running
 73    k8s_node01                     running
 -     donghang                       shut off
 -     hywater                        shut off
 -     k8s-m1                         shut off

我们将主节点的和从节点的服务器进行重启

virsh reboot  k8s_node01     ##进行重启
virsh reboot k8s-node02

等待几分钟重启一下
然后我们分别登录到215和216服务器进行查看一下
然后215服务器可以看到服务都没有启动起来
我们先进行以读写的方式进行重新对系统进行以读写方式进行挂载然后进行启动服务并查看服务的运行状态为running正常

mount -o remount,rw /       #以读写方式重新挂载
systemctl start docker   && systemctl start etcd  && systemctl start kubelet   
  #启动docker服务                #启动kubelet服务               #启动etcd服务
###然后进行查看运行状态
systemctl status docker    #查看docker服务状态   
systemctl status kubelet    #查看kubelet服务状态
systemctl status etcd         #查看etcd服务状态

我们上216服务器进行查看服务状态他会自启动服务

systemctl start docker   && systemctl start etcd && systemctl start kubelet              
systemctl status docker
systemctl status kubelet
systemctl status etcd
###如果状态都为running则正常

如果两台服务器都正常了,可以到215服务器进行测试看看
使用命令

kubectl get nodes
kubectl get cs

可以发现可以使用命令,并且集群正常

治标不治本

根本原因还要去寻找,不然可能还会导致连续的宕机

治本

可能是节点的资源不够磁盘使用量过大导致的
然后再进行更新发布项目的时候会直接使k8s的主节点宕机
可以看看各个节点的磁盘状况然后进行清理一下
k8s的主节点磁盘使用率达到了85%然后其他节点也有的75%
经过排查看到日志文件过大导致的

#在目录下较多文件的情况下可以进行筛选大于1G的文件
find . -type f -size +1024M
#可以在/看看各个目录占用多大,在逐步排查具体文件
du -sh *
#发现/var目录占用较大
cd /var/log
du -sh *   
##可以看到有两个文件已经一共10G也不是当天的可以进行清除#不要清楚正在使用的!!!
rm -rf messages-20200824
rm -rf messages-20200831
#在进行查看df -h磁盘空间变成了65%
#其他节点同理

然后宕机的节点进行重启并启动服务使k8s正常运行

仅供参考

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/101948.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • access 注入

    0x00前言现在access的站,比较少,有的话也是小型网站在用,因为access的性能比较差,多人访问都能卡死,所以很多网站都很少会采用access的数据库搭建。但是该学的我们还是得学。0x0

    2021年12月11日
    57
  • ffmpeg源码编译_开源代码平台

    ffmpeg源码编译_开源代码平台 注:本文来转自http://www.aurora-x.net/wiki/CompileFFmpegWindows,前段时间用ffempg和x264开发了h264编码和解码的Filter,这篇文章是我编译ffmeg工程从网上搜到的最好的一份文档,及其详尽,我就是按照这个文档的一步一步地来做,第一次就顺利地完成了ffmepg的编译。如果你也在学习ffmpeg,来仔细学习一下这份文档吧,以后

    2022年9月25日
    2
  • 【STM32】HAL库 STM32CubeMX教程十—DAC「建议收藏」

    【STM32】HAL库 STM32CubeMX教程十—DAC「建议收藏」前言:本系列教程将对应外设原理,HAL库与STM32CubeMX结合在一起讲解,使您可以更快速的学会各个模块的使用所用工具:1、芯片:STM32F407ZET6/STM32F103ZET62、STM32CubeMx软件3、IDE:MDK-Keil软件4、STM32F1xx/STM32F4xxHAL库知识概括:通过本篇博客您将学到:DAC工作原理STM32CubeMX创建…

    2022年5月30日
    62
  • python3画图中文乱码_pycharm 画图中文乱码

    python3画图中文乱码_pycharm 画图中文乱码importmatplo pyplotasplti 出现中文乱码原因 matplotlib 中找不到中文字体解决方法 1 找到中文字体文件的地址和字体文件名通常 C Windows Fonts 字体文件名 2 加载字体 zh font matplotlib font manager FontProperti fname C Windows Fon

    2025年7月8日
    2
  • IDEA全局查找快捷键不管用(不起作用、没反应)[通俗易懂]

    IDEA全局查找快捷键不管用(不起作用、没反应)[通俗易懂]这种情况一般都是输入法快捷键冲突请参照博客https://blog.csdn.net/weixin_44018093/article/details/91542244进行修复

    2022年6月17日
    92
  • datagrip激活码【注册码】

    datagrip激活码【注册码】,https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月18日
    47

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号