从零到壹构建行为日志聚合[通俗易懂]

从零到壹构建行为日志聚合

大家好,又见面了,我是全栈君。

摘要

行为日志在这个大数据时代的作用日益重要,怎样更好的收集、存储、管理日志也是值得研究的一个问题,大型互联网公司一般都有成熟的日志聚合方案,但是每个公司尤其是中小型公司都要针对自己的应用场景来做技术选型,本文主要针对中小型公司如何以较小的成本快速构建一个行为日志聚合体系以及在建立日志聚合过程中要处理哪些问题。

关键字

日志收集,消息队列,数据仓库,生产者,消费者

原始阶段

最初公司使用日志收集的方式极其简单粗暴,数据量大的以文本文件形式存在本地磁盘,数据量小的存在各个数据库(比较重要的日志)。这种方式实现起来简单,但是存在诸多问题:查询极为不便,需要到到各服务器去查找日志;一般数据库的存储量级有限,如果要存大量数据需要水平分表,给运维和开发带来额外的负担;各个子系统的日志处理不统一,还要额外维护日志处理程序;日志分散会对后续的数据分析造成不便。所以作为互联网的分布式系统或微服务架构,日志是需要中心化管理的,需要集中统一的收集处理,才能降低开发和运维复杂度。

初级阶段

大型互联网公司应用比较多的方案是Flume+Kafka+Hadoop,当时觉得实现这个对小公司来说会增加额外的运维成本而且只有两个人在做调研。Kafka作为日志队列应该说是比较适合的,既能作为离线存储,又能用来实时计算。日志数据仓库选择了GreenPlum,原因是使用简单且高性能,因此先采用Kafka+GreenPlum方案,这样中间环节比较少。然后开始使用Kafka生产者SDK开发我们自己封装的日志发送SDK,还要使用Kafka消费者SDK开发日志投递中间件,这样从服务的日志输出到Kafka消息队列再到落地GreenPlum就完成了日志聚合过程。在考虑方案时要注意几个问题:整个方案必须支持在线扩容,无论是日志发送、消息队列、中间件、数据仓库中间哪个环节出现异常都要基本保证不丢失数据,这些服务在维护期间日志需要缓存,小团队在技术选型时尽量使用云商提供的产品从而降低运维成本。向Kafka发送数据时有两种模式:至少发一次、仅发一次,至少发一次确保数据不丢失但是可能有重复,仅发一次可能会丢失数据。我们希望尽量不丢失数据所以选择至少发一次,这样需要做去重处理,我们对每条日志做MD5缓存到Redis,Redis设置缓存时间。

演化阶段

使用Kafka+GreenPlum方案时发现一些问题:Kafka生产者SDK在日志量大的情况下占用较多CPU;Kafka生产者SDK将日志缓存到内存批量发送的,缓冲区有大小限制,这样在异常状态下可能丢失数据:Kafka修改有些配置需要重启集群,这样对线上维护就有影响了;Kafka不能同时使用公网地址和私网地址,我们有跨地区传输日志的特殊需求。基于这些考虑我们给消息队列增加了二级缓存Flume,Flume支持扇入扇出、支持各种网络协议、包含Kafka功能插件,这样我们在开发基于Flume的日志发送SDK时可以比较灵活的控制。因为我们有跨地区发送日志的情况,所以在网络不稳定时日志发送SDK需要持久化数据到本地,使用退避算法检测网络状态,网络恢复时批量发送本地日志。由于Flume支持持久化并且可以用负载均衡器实现高可用,Kafka也就能更灵活的维护。对于跨地域传输,我们通过自己建立隧道、一个负载均衡器挂接多个Flume可以实现。到此为止整个方案演变成Flume+Kafka+GreenPlum,日处理日志记录2亿条、产生100G数据。

最终阶段

GreenPlum一个表亿级数据能达到秒级返回,但是如果一个表的数据量达到几十亿级查询速度就是分钟级返回了。GreenPlum虽然有分区表,但是分区表不宜过多,过多会影响查询速度,而我们的日志是按时间记录,最适合的分区字段就是时间,时间又是无限的,这样势必造成分区问题,如果按月分区一个分区数据量过大导致查询速度慢,如果按日分区分区数太多导致查询速度慢。因此最终决定将日志迁移到Hadoop集群,Hadoop是以HDFS文件目录来做分区索引,这种模式非常适合以日期作为分区的场景。Hadoop查询一个分区的数据,速度确实会比较快,但是复杂查询需要聚合多个分区数据的时候性能比GreenPlum差很多,只有依赖于投入更多计算资源提高并行计算能力,GreenPlum适合存储报表数据以便快速查询在前端展示。最终方案演变成Flume+Kafka+Hadoop+GreenPlum,Hadoop作为行为日志数据仓库,GreenPlum作为报表数据仓库,Kafka作为实时计算和离线存储的日志消息队列。

总结

本文描述了行为日志聚合从零到壹、从量小到量大、从简单到复杂的演变过程,适合小团队参考。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/107719.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • 栈与队列的区别_栈和队列

    栈与队列的区别_栈和队列1、队列先进先出,栈先进后出。2、对插入和删除操作的"限定"不同。栈是限定只能在表的一端进行插入和删除操作的线性表。   队列是限定只能在表的一端进行插入和在另一端进行删除操作的线性表。  3、遍历数据速度不同。栈只能从头部取数据,也就最先放入的需要遍历整个栈最后才能取出来,而且在遍历数据的时候还得为数据开辟临时空间,保持数据在遍历前的一致性。队列则不同,它基于地址指针…

    2025年7月11日
    0
  • 关于AD域的介绍

    关于AD域的介绍关于AD域第一次写博客,记录一下如何搭建自己的域服务器,以及其中遇到的一些问题,感谢“我的bug我做主”的文章《C#实现AD域验证登录(一)》,为防止原文被作者删除,手动将原文复制下来,如有侵权,请及时告知。域的简单介绍为什么要使用域?假设你是公司的系统管理员,你们公司有一千台电脑。如果你要为每台电脑设置登录帐户,设置权限(比如是否允许登录帐户安装软件),那你要分别坐在这一千台电脑前工作。如…

    2022年5月17日
    43
  • android插件化资源_android 插件化

    android插件化资源_android 插件化AndroidEagleEye是一个基于Xposed的应用,可以实现对Android系统API与应用自身方法的Hook,最终会将Hook的API或方法的信息以Log的形式输出,包括应用的uid、API或方法的名称、参数信息等。在使用AndroidEagleEye过程中对设备造成的任何风险自负特色可实现对Android系统API以及应用自身方法的Hook可根据配置

    2022年8月16日
    4
  • Spring boot Mybatis 整合(注解版)

    Spring boot Mybatis 整合(注解版)之前写过一篇关于springboot与mybatis整合的博文,使用了一段时间spring-data-jpa,发现那种方式真的是太爽了,mybatis的xml的映射配置总觉得有点麻烦。接口定义和映射离散在不同的文件中,阅读起来不是很方便。于是,准备使用mybatis的注解方式实现映射。如果喜欢xml方式的可以看我之前的博文:SpringbootMybatis整合(完整版)开发环境:开

    2022年6月9日
    23
  • F1 score,micro F1score,macro F1score 的定义

    F1 score,micro F1score,macro F1score 的定义本篇博客可能会继续更新最近在文献中经常看到precesion,recall,常常忘记了他们的定义,在加上今天又看到评价多标签分类任务性能的度量方法microF1score和macroF2score。决定再把F1score一并加进来把定义写清楚,忘记了再来看看。F1scoreF1score(以下简称F1)是用来评价二元分类器的度量,它的计算方法如下:F1  …

    2022年10月14日
    0
  • JSP程序设计课后习题答案

    JSP程序设计课后习题答案第一章JSP概述1-1JSP的全称是什么?JSP有什么优点?JSP与ASP、PHP的相同点是什么?JSP的全称是JavaServerPages。优点:跨平台、分离静态内容和动态内容、可重复使用的组件、沿用了JavaServlet的所有功能、具有预编译性。共同点:可以在页面中加入脚本代码来生成动态内容。1-2JSP中可重复使用的组件有哪些?JavaBean组件、JSP的标准标签和自定义标签。1-3什么是JSP的预编译特征?预编译是JSP的另一个重要的特性。JSP

    2022年6月16日
    23

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号