Doris Compaction机制总结

1、参考文档

按顺序读完这三篇文章，就能对Doris的compaction机制很熟悉了

2、总结

2.1、读写方式

2.1.1、写入

Doris数据写入模型使用了LSM-Tree（随机写变为顺序写，面向写优化），数据追加的方式写入磁盘

2.1.2、读取

读逻辑上，需要通过Merge-on-Read方式

2.2.3、compaction目的

一是避免在读取时大量的 Merge 操作
二是避免大量的数据版本导致的随机IO

2.2、Compaction优点

数据更加有序
消除数据变更
增加数据聚合度

2.3、Compaction 的问题

合理的设置表的分区、分桶和副本数量，避免过多的分片，可以降低Compaction的开销。

2.4、数据版本的产生

2.5、Base & Cumulative Compaction

如果只有 Base Compaction，则每次增量数据都要和全量的基线数据合并，写放大问题会非常严重，并且每次 Compaction 都相当耗时。

在合理范围内，尽量减少 Base Compaction 操作。

2.6、数据分片选择策略

tablet的“读取频率” 和 “版本数量” 会根据各自的权重，综合计算出一个 Compaction 分数，分数越高的分片，优先做 Compaction。

compaction_tablet_scan_frequency_factor：“读取频率” 的权重值，默认为 0。
compaction_tablet_compaction_score_factor：“版本数量” 的权重，默认为 1。

“读取频率” 的权重值默认为0，即默认仅考虑 “版本数量” 这个因素。

2.7、Compaction 是一个生产者-消费者模型

2.7.1、生产者

generate_compaction_tasks_min_interval_ms
每生产一轮compaction任务，producer线程会休眠10ms。

2.7.2、消费者

Doris 限制了每个磁盘上能够同时进行的 Compaction 任务数量，以及节点整体的任务数量

compaction_task_num_per_disk：每个磁盘上的任务数，默认为2。该参数必须大于等于2，以保证 BC 和 CC 任务各自至少有一个线程。

max_compaction_threads：消费者线程，即Compaction线程的总数。默认为 10。

total_permits_for_compaction_score：Compaction 任务配额，默认 10000。

compaction_task_num_per_disk max_compaction_threads total_permits_for_compaction_score

三个配置共同决定了节点所能承受的 Compaction 任务数量。

2.8、数据版本选择策略

2.8.1、BC

base_compaction_num_cumulative_deltas:
一次 BC 任务最小版本数量限制。默认为5。该参数主要为了避免过多 BC 任务。当数据版本数量较少时，BC 是没有必要的

base_compaction_interval_seconds_since_last_operation
当 Doris 发现一个 tablet 长时间没有执行过 BC 任务时，也会触发 BC 任务。这个参数就是控制这个时间的，默认是86400，单位是秒。

2.8.2、CC

num_based cumulative compaction是基于rowset的文件数量进行compaction的选择，该策略会在后面的版本中被丢弃。
size_based cumulative compaction策略通过计算每个rowset的大小来决定compaction的选择，可以显著地减少写放大的系数。

max_cumulative_compaction_num_singleton_deltas
一次 CC 任务最大的版本数量限制，默认1000

cumulative_size_based_compaction_lower_size_mbytes
一次 CC 任务最少的数据量，和min_cumulative_compaction_num_singleton_delta 同时（&&关系）判断。默认是 64，单位是 MB。

简单来说，默认配置下，就是从 CP 版本开始往后选取 rowset。最少选5个，最多选 1000 个，然后判断数据量是否大于阈值即可。

2.8.3、设置新的CP

cumulative_size_based_promotion_min_size_mbytes：最小晋升大小，默认 64，单位 MB。

cumulative_size_based_promotion_size_mbytes：最大晋升大小，默认 1024，单位 MB。

2.9、其他 Compaction 参数和注意事项

disable_auto_compaction：默认为 false，修改为 true 则会禁止 Compaction 操作。
该参数仅在一些调试情况，或者 compaction 异常需要临时关闭的情况下才需使用。

3、相关参数总结

 #选择tablet进行compaction时，计算 tablet score 的公式中 tablet scan frequency 的权重 compaction_tablet_scan_frequency_factor 0 #选择tablet进行compaction时，计算 tablet score 的公式中 compaction score的权重。 compaction_tablet_compaction_score_factor 1 #每生产一轮compaction任务，producer线程会休眠10ms。 generate_compaction_tasks_min_interval_ms 10 #Compaction任务的生产者每次连续生产多少轮cumulative compaction任务后生产一轮base compaction。 cumulative_compaction_rounds_for_each_base_compaction_round 9 #每个磁盘可以并发执行的compaction任务数量。 compaction_task_num_per_disk 2 #Compaction线程池中线程数量的最大值。 max_compaction_threads #被所有的compaction任务所能持有的 “permits” 上限，用来限制compaction占用的内存。 total_permits_for_compaction_score 10000 #Cumulative文件数目要达到的限制，达到这个限制之后会触发BaseCompaction base_compaction_num_cumulative_deltas 5 #BaseCompaction触发条件之一：上一次BaseCompaction距今的间隔 base_compaction_interval_seconds_since_last_operation 86400 #cumulative compaction策略：最小增量文件的数量 min_cumulative_compaction_num_singleton_deltas 5 #cumulative compaction策略：最大增量文件的数量 max_cumulative_compaction_num_singleton_deltas 100 #在size_based策略下，cumulative compaction进行合并时，选出的要进行合并的rowset的总磁盘大小大于此配置时， #才按级别策略划分合并。小于这个配置时，直接执行合并。单位是m字节。 #简单来说，默认配置下，就是从 CP 版本开始往后选取 rowset。最少选5个，最多选 1000 个，然后判断数据量是否大于阈值即可。 cumulative_size_based_compaction_lower_size_mbytes 64m #（CC输出的rowset大小）/（BC所有rowset大小）晋升比率（这是一个量级）。 cumulative_size_based_promotion_ratio 0.05。 #CC输出的rowset大小最小阈值 cumulative_size_based_promotion_min_size_mbytes：最小晋升大小，默认 64，单位 MB。 #CC输出的rowset大小最大阈值 cumulative_size_based_promotion_size_mbytes：最大晋升大小，默认 1024，单位 MB。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/233556.html原文链接：https://javaforall.net

1、参考文档

2、总结

2.1、读写方式

2.1.1、写入

2.1.2、读取

2.2.3、compaction目的

2.2、Compaction优点

2.3、Compaction 的问题

2.4、数据版本的产生

2.5、Base & Cumulative Compaction

2.6、数据分片选择策略

2.7、Compaction 是一个 生产者-消费者 模型

2.7.1、生产者

2.7.2、消费者

2.8、 数据版本选择策略

2.8.1、BC

2.8.2、CC

2.8.3、设置新的CP

2.9、其他 Compaction 参数和注意事项

3、相关参数总结

相关推荐

Silverlight群建立了,欢迎加入SilverlightQQ群!

mysql获取当前时间+1天_mysql获取当前时间，前一天，后一天 流失的痕迹「建议收藏」

c#中Invoke方法

根据经纬度和半径计算经纬度范围

pycharm 3.2激活码 2022【在线注册码/序列号/破解码】

渗透测试之信息收集 搭建漏洞环境(渗透测试信息收集的方法)

发表回复

2.7、Compaction 是一个生产者-消费者模型

2.8、数据版本选择策略

mysql获取当前时间+1天_mysql获取当前时间，前一天，后一天流失的痕迹「建议收藏」

渗透测试之信息收集搭建漏洞环境(渗透测试信息收集的方法)