ceph 数据校验机制 scrub源码分析

ceph 用来保证数据完整性的机制(read verify)。 Ceph 的OSD 定期启动scrub线程来扫描部分对象，通过与其他副本比对来发现是否一致，如果存在不一致，抛出异常提示用户手动解决。

具体讲，scrub 以PG 为单位，对于每一个pg,ceph 分析该pg下所有的object, 产生一个类似于元数据信息摘要的数据结构，如对象大小，属性等，叫scrubmap, 比较主与副scrubmap，来保证是不是有object 丢失或者不匹配。

lightscrub(daily)比较object size 和属性。deep scrub (weekly)读取数据部分并通过checksum(这里是CRC32)比较保证数据一致性。

Scrub方式分成两种， classic vs. chunky

Scrub流程需要提取对象的校验信息然后跟其他副本的校验信息对比，这期间被校验对象的数据是不能被修改的,所以write请求会被block. 由于pg可能包含成千上万objects, chunk每一次的比较只取其中一部分object来比较（chunk），这样只block一小部分object的write请求。这是在ceph的Bobtail(v0.56 Jan 1 2013)引入的feature,称为chunky scrub. Classic scrub 没有引入chunk，会block所有的write请求。

Scrub 流程

$ cephpg scrub 2.9f9 //用户手动触发scrub

1.monitor 进程接收到此指令， in PGMonitor.ccin preprocess_command(), monitor 给pg 所在的主osd 发消息new MOSDScrub，指示开始干活。

2. 主osd上，_dispatch()–>handle_scrub()：

3. 然后进入OSD::sched_scrub() ,如何进入的？

} OSD::tick

4.call PG::sched_scrub()

reserved locally, reserving replicas

最终，所有osd 都reserved成功。

sched_scrub: success, reserved self and replicas

5.call PG::queue_scrub()

state_set(PG_STATE_SCRUBBING);

state_set(PG_STATE_DEEP_SCRUB);

osd->queue_for_scrub(this);—>return scrub_wq.queue(pg); 把pg进入了scrub_wq.

6.OSD.h scrubWQ-> _process()–> pg->scrub()

调用chunky_scrub(), 进入PG::Scrubber的状态机。

NEW_CHUNK:scrubber.primary_scrubmap= ScrubMap();

确定start和end. scrubber.end = candidate_end;scrubber.block_writes = true;

注意：在COMPARE_MAPS里：scrubber.start = scrubber.end;// schedule another leg of the scrub

// walk the log to find the latest update thataffects our chunk

向replica请求scrub map.

_request_scrub_map() 会newMOSDRepScrub， message 类型是MSG_OSD_REP_SCRUB。看下面从osd 收到此类消息的处理。

BUILD_MAP: build_scrub_map_chunk() // scrubmap包括 object size, attr 和omap attr, 历史版本信息。

进一步call voidPGBackend::be_scan_list(): 调用 store->getattrs( ), 如果是deep,计算CRC32.

WAIT_REPLICAS：通常会wait for replicas to build scrub map 从而跳出循环。等待scrubber.waiting_on 变成零（收到replica map）

最终sub_op_scrub_map 收到所有的replica_map后， –scrubber.waiting_on，清零。

COMPARE_MAPS

scrub_compare_maps(), 1.比对scrubmap:be_compare_scrubmaps().2. dothe pg-type specific scrubbing:_scrub(authmap).

然后清掉该chunk的block_writes

FINISH

scrub_finish():

class ReplicatedPG 有一个成员：object_stat_collection_tscrub_cstat

pg::_scrub时，统计stat

而class pg 有一个成员pginfo，记录的object number 是575.

二者信息不一致，会打印ERR.

然后调用scrub_process_inconsistent()

scrub_unreserve_replicas()

从osd 处理流程：

msgcase is MSG_OSD_REP_SCRUB:

handle_rep_scrub() 进入rep_scrub_wq。

_process() 调用pg->replica_scrub（），做以下事情。

last_update_applied 和 active_pushes与recovery 流程相关。。。

———-

在handle_scrub时，

这说明，要repair, deep_scrub 是必须的。

===keystructure===

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/221258.html原文链接：https://javaforall.net

ceph 数据校验机制 scrub源码分析

关于作者

全栈程序员-站长

发表回复

ceph 数据校验机制 scrub源码分析

关于作者

全栈程序员-站长

相关推荐

ModifyStyle, ModifyStyleEx

slam关键技术_深度技术还做系统吗

Idea激活码永久有效Idea2017.1.6激活码教程-持续更新，一步到位[通俗易懂]

JAVA 使用Dom4j 解析XML

GPT-4o提效神器！8种王炸用法让小白秒变大神（附提示词模版）

常用坐标系简介（正在完善~）

发表回复