proxmox集群节点崩溃处理

proxmox集群节点崩溃处理

问题描述

 

在现有集群加入一个物理节点,接着再此节点创建ceph监视器、创建OSD。从宿主机系统执行ceph osd tree查看状态,创建起来的几个OSD状态都正常(up),从proxmox管理界面看也是这样。

 

突然不知道什么原因,刚加入的节点就突然不能从集群中失效了。

image.png

再进宿主机系统查OSD状态,居然自己从up变成down。新增节点没数据,于是就试试重启,看能不能正常。重启以后,网络能通,ssh不能连接,web管理界面也不能访问。接下来,需要先把故障节点从集群中撤离出来,恢复以后,再加入集群。

 

从集群中删除故障节点

 

按操作顺序分两个步骤:从集群中删除故障ceph和从集群中删除物理节点。

 

ü  从集群中删除故障ceph

1.       登录集群任意物理正常节点系统,执行如下命令查看ceph osd状态:

root@pve48:~# ceph osd tree

ID CLASS WEIGHT   TYPE NAME      STATUS REWEIGHT PRI-AFF

-1         18.00357 root default                          

-3          4.91006     host pve48                        

 0     hdd  1.63669         osd.0      up    1.00000 1.00000

 1     hdd  1.63669         osd.1      up    1.00000 1.00000

 2     hdd  1.63669         osd.2        up  1.00000 1.00000

-5          4.91006     host pve49                        

 3     hdd  1.63669         osd.3      up    1.00000 1.00000

 4     hdd  1.63669         osd.4      up    1.00000 1.00000

 5     hdd  1.63669         osd.5      up    1.00000 1.00000

-7          4.91006     host pve50                        

 6     hdd  1.63669         osd.6      up    1.00000 1.00000

 7     hdd  1.63669         osd.7      up    1.00000 1.00000

 8     hdd  1.63669         osd.8      up    1.00000 1.00000

-9          3.27338     host pve51                        

9           hdd  1.63669         osd.9    down        0 1.00000

10     hdd  1.63669         osd.10   down          0 1.00000

从输出可知物理节点pve51的两个OSD有问题,需要删除。

2.       离线有问题的ceph osd,执行的操作如下:

root@pve48:~# ceph osd out osd.9

osd.9 is already out.

root@pve48:~# ceph osd out osd.10

osd.10 is already out.

操作时要仔细,别把正常的osd离线了。

3.       删除已经离线osd认证信息,执行的操作如下:

root@pve48:~# ceph auth del osd.9

updated

root@pve48:~# ceph auth del osd.10

updated

 

4.       彻底删除故障osd,操作如下:

root@pve48:~# ceph osd rm 9

removed osd.9

root@pve48:~# ceph osd rm 10

removed osd.10

注意:此操作ceph最后一列参数与前边的不同,是纯数字格式!!!

5.       查看集群osd状态,操作如下:

root@pve48:~# ceph osd tree

ID CLASS WEIGHT   TYPE NAME      STATUS REWEIGHT PRI-AFF

-1         18.00357 root default                             

-3          4.91006     host pve48                        

 0     hdd  1.63669         osd.0      up    1.00000 1.00000

 1     hdd  1.63669         osd.1      up    1.00000 1.00000

 2     hdd  1.63669         osd.2      up    1.00000 1.00000

-5          4.91006     host pve49                        

 3     hdd  1.63669         osd.3      up    1.00000 1.00000

 4     hdd  1.63669         osd.4      up    1.00000 1.00000

 5     hdd  1.63669         osd.5      up    1.00000 1.00000

-7          4.91006     host pve50                        

 6     hdd  1.63669         osd.6      up    1.00000 1.00000

 7     hdd  1.63669         osd.7      up    1.00000 1.00000

 8     hdd  1.63669         osd.8      up    1.00000 1.00000

-9          3.27338     host pve51                         

9           hdd  1.63669         osd.9     DNE        0        

10     hdd  1.63669         osd.10    DNE          0  

操作完成后,故障节点的osd状态从down变成了DNE

6.       删除故障节点的ceph磁盘,操作如下:

root@pve48:~# ceph osd crush rm osd.9

removed item id 9 name ‘osd.9’ from crush   map

root@pve48:~# ceph osd crush rm osd.10

removed item id 10 name ‘osd.10’ from crush   map

 

7.       从ceph集群中删除物理节点,操作如下:

root@pve48:~# ceph osd crush rm  pve51

removed item id -9 name ‘pve51’ from crush   map

 

8.       执行指令 ceph osd tree 查看状态,看是否把故障节点从ceph集群清理出去。

 

ü  从集群中删除故障节点

 

Ø  集群上的操作

登录集群中任意正常节点,执行如下指令进行驱逐操作:

root@pve48:~# pvecm  delnode pve51

Killing   node 4

 

Ø  故障机恢复操作

最好全部干掉,重新安装系统,并用新的ip地址,加入集群。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/101292.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • charles乱码怎么解决_抓包精灵乱码

    charles乱码怎么解决_抓包精灵乱码前言当使用Charles抓包时,发现数据都是乱码,这时需要安装证书解决办法1.点击charles窗口,点击左上角Help->SSLProxying→InstallCharles

    2022年7月31日
    3
  • windows10 安装密钥_安装了pycharm还需要安装anaconda

    windows10 安装密钥_安装了pycharm还需要安装anaconda前言Python环境配置,有很多种组合方式,但是比较流行的是:Anaconda+Pycharm.第一部分:下载及安装Anaconda1.下载Anaconda安装包,官网下载地址:https://www.anaconda.com/download/选择64-bit的python3.7下载安装Anaconda下载后的文件为.exe文件,双击该文件进入安装界面。  2.1、依次…

    2022年8月29日
    1
  • Ubuntu18.04 Cmake升級

    Ubuntu18.04 Cmake升級

    2020年11月8日
    205
  • 动态规划经典题目_leetcode合并两个有序数组

    动态规划经典题目_leetcode合并两个有序数组一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为 “Start” )。机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为 “Finish” )。问总共有多少条不同的路径?示例 1:输入:m = 3, n = 7输出:28示例 2:输入:m = 3, n = 2输出:3解释:从左上角开始,总共有 3 条路径可以到达右下角。向右 -> 向下 -> 向下向下 -> 向下 -> 向右向下 -> 向右 -&gt

    2022年8月8日
    2
  • 折半查找函数C语言_c语言数据结构折半查找

    折半查找函数C语言_c语言数据结构折半查找折半查找法(C语言)#include#definemax20intbinary(intx,intlist[],intn)/*从list[]中查找x*/{intlow,high,mid;low=0;high=n-1;while(low<=high){mid=(low+high)/2;/*折半*/if(xhigh=mid…

    2025年6月6日
    0
  • 使用rpm安装telnet软件并实现远程登录

    使用rpm安装telnet软件并实现远程登录一、RPM包管理工具的使用1、RPM包管理工具介绍·RedHat软件包管理工具(RedHatPackageManager,RPM)·RPM软件包工具常用于软件包的安装、查询、更新升级、校验、卸载以及生成.rpm格式的软件包等操作。·RPM软件包工具只能管理后缀是.rpm的软件包。软件包的命名格式:·软件名称-版本号(包括主版本号和次版本号).软件运行的硬件平台.rpm例:telnet-server-0.17-59.el7.x86_64.rpm。2、RPM工具的使用RPM

    2022年5月9日
    46

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号