ceph 数据校验机制 scrub源码分析

ceph 数据校验机制 scrub源码分析ceph 用来保证数据完整性的机制 readverify Ceph 的 OSD 定期启动 scrub 线程来扫描部分对象 通过与其他副本比对来发现是否一致 如果存在不一致 抛出异常提示用户手动解决 具体讲 scrub 以 PG 为单位 对于每一个 pg ceph 分析该 pg 下所有的 object 产生一个类似于元数据信息摘要的数据结构 如对象大小 属性等 叫 scrubmap 比较主与副 scrub

ceph 用来保证数据完整性的机制(read verify)。 Ceph 的OSD 定期启动scrub线程来扫描部分对象,通过与其他副本比对来发现是否一致,如果存在不一致,抛出异常提示用户手动解决。

具体讲,scrub 以PG 为单位,对于每一个pg,ceph 分析该pg下所有的object, 产生一个类似于元数据信息摘要的数据结构,如对象大小,属性等,叫scrubmap, 比较主与副scrubmap,来保证是不是有object 丢失或者不匹配。

lightscrub(daily)比较object size 和属性。deep scrub (weekly)读取数据部分并通过checksum(这里是CRC32)比较保证数据一致性。

 

Scrub方式分成两种, classic vs. chunky

Scrub流程需要提取对象的校验信息然后跟其他副本的校验信息对比,这期间被校验对象的数据是不能被修改的,所以write请求会被block. 由于pg可能包含成千上万objects,   chunk每一次的比较只取其中一部分object来比较(chunk),这样只block一小部分object的write请求。这是在ceph的Bobtail(v0.56  Jan 1 2013)引入的feature,称为chunky scrub. Classic scrub 没有引入chunk, 会block所有的write请求。

 

Scrub 流程

$ cephpg scrub 2.9f9  //用户手动触发scrub

1.monitor 进程接收到此指令, in PGMonitor.ccin preprocess_command(), monitor 给pg 所在的主osd 发消息new MOSDScrub, 指示开始干活。

2. 主osd上,_dispatch()–>handle_scrub():

 

3. 然后进入OSD::sched_scrub() ,如何进入的? 

   } OSD::tick 

4.call PG::sched_scrub()

    reserved locally, reserving replicas

    最终,所有osd 都reserved成功。

    sched_scrub: success, reserved self and replicas

5.call  PG::queue_scrub()

    state_set(PG_STATE_SCRUBBING);

    state_set(PG_STATE_DEEP_SCRUB);

    osd->queue_for_scrub(this);—>return scrub_wq.queue(pg); 把pg进入了scrub_wq.

6.OSD.h scrubWQ-> _process()–> pg->scrub()

    调用chunky_scrub(), 进入PG::Scrubber的状态机。

         NEW_CHUNK:scrubber.primary_scrubmap= ScrubMap(); 

                            确定start和end. scrubber.end = candidate_end;scrubber.block_writes = true;

                            注意:在COMPARE_MAPS里:scrubber.start = scrubber.end;// schedule another leg of the scrub

                            // walk the log to find the latest update thataffects our chunk

                            向replica请求scrub map.

                            _request_scrub_map() 会newMOSDRepScrub, message 类型是MSG_OSD_REP_SCRUB。看下面从osd 收到此类消息的处理。

         BUILD_MAP: build_scrub_map_chunk() // scrubmap包括 object size, attr 和omap attr, 历史版本信息。

                                 进一步call voidPGBackend::be_scan_list(): 调用 store->getattrs( ), 如果是deep,计算CRC32.   

         WAIT_REPLICAS:通常会wait for replicas to build scrub map 从而跳出循环。等待scrubber.waiting_on 变成零(收到replica map)

    最终sub_op_scrub_map 收到所有的replica_map后,  –scrubber.waiting_on,清零。

         COMPARE_MAPS

                  scrub_compare_maps(), 1.比对scrubmap:be_compare_scrubmaps().2. dothe pg-type specific scrubbing:_scrub(authmap).

                   然后清掉 该chunk的block_writes

         FINISH

                  scrub_finish():

                        class ReplicatedPG 有一个 成员:object_stat_collection_tscrub_cstat

                       pg::_scrub时, 统计stat

 

                       而class pg 有一个成员pginfo,记录的object number 是575.

                       二者信息不一致,会打印ERR.

                       然后调用scrub_process_inconsistent()

                       scrub_unreserve_replicas()

 

 

  从osd 处理流程:

msgcase is MSG_OSD_REP_SCRUB:

    handle_rep_scrub()   进入rep_scrub_wq。

    _process() 调用pg->replica_scrub(),做以下事情。

 

*/    

      last_update_applied   active_pushes与recovery 流程相关。。。

———-

在handle_scrub时,

    这说明,要repair, deep_scrub 是必须的。

 

 

===keystructure===

 

 

 

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/221258.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月17日 下午6:33
下一篇 2026年3月17日 下午6:33


相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号