基于spark的数据采集平台

基于spark的数据采集平台数据采集平台管理端https://github.com/zhaoyachao/zdh_web数据采集平台服务https://github.com/zhaoyachao/zdh_server平台介绍数据采集,处理,监控,调度,管理一体化平台具体介绍请看github连接中的readme文档

大家好,又见面了,我是你们的朋友全栈君。

数据采集平台管理端

https://github.com/zhaoyachao/zdh_web

数据采集平台服务

https://github.com/zhaoyachao/zdh_server

web端在线查看

http://zycblog.cn:8081/login

用户名:zyc
密码:123456

界面只是为了参考功能,底层的数据采集服务 需要自己下载zdh_server 部署,服务器资源有限,请手下留情

如果觉得项目不错记得分享给同伴和点star!!!

 

平台介绍

数据采集,处理,监控,调度,管理一体化平台具体介绍请看github连接中的readme 文档

# 数据采集,处理,监控,调度,管理一体化平台

# 提示
   
    zdh 分2部分,前端配置+后端数据ETL处理,此部分只包含前端配置
    后端数据etl 请参见项目 https://github.com/zhaoyachao/zdh_server.git
    zdh_web 和zdh_server 保持同步 大版本会同步兼容 如果zdh_web 选择版本1.0 ,zdh_server 使用1.x 都可兼容

# 特色
    开箱即用
    支持多数据源
    高性能数据采集
    单独的调度器,调度也可和三方调度器对接airflow,azkaban
    二次开发
    
   
# 使用场景
  + 数据采集(本地上传数据,hdfs,jdbc,http,cassandra,mongodb,redis,kafka,hbase,es,sftp,hive)
  + 数据加密
  + 数据转换,数据离线同步,实时数据同步
  + 质量检测
  + 元数据,指标管理
  + drools灵活动态的数据清洗
  
  
  
# 主要功能
 zdh 主要的作用 是从hdfs,hive,jdbc,http-json接口 等数据源拉取数据,并转存到hdfs,hive,jdbc等其他数据源
 支持集群式部署
 
 
  + 支持sql标准函数
  + 支持界面选择配置
  + 支持快速复制已有任务
  + 支持外部调度工具(需要修改,新增特定接口)
  + 弹性扩展(可单机,可集群)
  + 支持客户级权限
  + 简单易用支持二次开发
  + 自带简单调度工具,可配置定时任务,时间序列任务,设定次数
  + 调度依赖
  + SQL数据仓库数据处理(单一数仓)
  + 质量检测,及对应报告
  + 支持SHELL 命令,SHELL 脚本,JDBC查询调度,HDFS查询调度
  + 支持本地上传,下载文件
  + 支持多源ETL
  + 任务监控
  + 灵活动态drools规则清理
  
# 功能图
![功能图](img/zdh_web.jpg)  
  
# 版本更新说明
  + v1.0 支持常用数据jdbc,hive,kafka,http,flume,redis,es,kudu,mongodb,hbase,cassandra,hdfs(csv,json,orc,parquet,xml,excel...),本地上传数据(csv)
  + v1.0 调度支持任务依赖等
 
  + v1.1 支持clickhouse-jdbc
  
  + v1.2 支持外部jar etl任务(任务状态需要外部jar 自己跟踪)
  
  + v1.3 支持drools 数据清理
  
  
# FAQ
    shell 脚本格式
    
    window:
    @echo off
    ping -c 4 www.baidu.com1
    :throw
    if %ERRORLEVEL% EQU 1 exit 1 goto end //此处捕获不可少,异常 输出exit 1
    :end
    echo "success"
    exit 0 //此处不可少 正常输出 exit 0
    
    linux
    ping -c 4 www.baidu.com1
    if [ $? -eq 0 ];then
    exit 0
    else
    exit 1
    fi
 
 # 支持的数据源
   + 本地文件
   + hive(单集群使用多个远程hive,以及内外部表)
   + hdfs(csv,txt,json,orc,parquet,avro)
   + jdbc (所有的jdbc,包含特殊jdbc如hbase-phoenix,spark-jdbc,click-house)
   + hbase
   + mongodb
   + es
   + kafka
   + http
   + sftp
   + cassandra
   + redis
   + flume

# 支持的调度对象
   + shell 命令
   + 数据库查询
   + 特色开发jar
   
# 支持的调度器模式
   + 时间序列(时间限制,次数限制)
   + 单次执行
   + 重复执行(次数限制,时间限制)
   
# 支持调度动态日期参数   
   详见说明文档
 
# 用到的技术体系

    前端:Bootstrap
    后端:Springboot+shiro+redis+mybatis
    数据ETL引擎:Spark(hadoop,hive 可选择部署)
    
# 下载修改基础配置

    打开resources/application-dev.properties
     1 修改服务器端口默认8081
     2 修改数据源连接(默认支持mysql8),外部数据库必须引入
     3 修改redis配置

    创建需要的数据库配置
     1 执行sql脚本db.sql
     
    依赖
     1 必须提前安装redis 

# 下载编译好的包

    1 找到项目目录下的release 目录 直接将release 目录拷贝
    2 到relase的bin 目录下执行start 脚本(启动脚本必须到bin 目录下执行)
    3 执行编译好的包需要提前安装mysql8,redis

# 源码自定义打包
    
    清理命令 mvn clean
    打包命令 mvn package -Dmaven.test.skip=true

# 运行
    在target 目录下找到zdh.jar
    执行 java  -Dfile.encoding=utf-8 -jar zdh.jar

 

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/132626.html原文链接:https://javaforall.net

(0)
上一篇 2022年6月10日 下午3:00
下一篇 2022年6月10日 下午3:00


相关推荐

  • MySQL中的数据类型_js中的数据类型

    MySQL中的数据类型_js中的数据类型主要介绍了mysql中的数据类型,主要介绍整数类型,浮点类型,日期类型。开发中每个表都会存在主键和更新时间,这时候选择那个数据类型作为主键也是很重要的,如果选择的数据类型太大会浪费空间,如果选择小了会影响后期开发。平时面试官也会问你那个数据类型作为主键最好。

    2026年1月28日
    5
  • Mac OS X 10.7.5 Lion 系统安装 U 盘制作

    Mac OS X 10.7.5 Lion 系统安装 U 盘制作准备 MacOSX10 7 5Lion 系统镜像文件 OSX10 7 511G63 完整版 dmg8G 容量及以上的 U 盘 Catalina 系统下制作步骤在 Catalina 系统中双击已经下载好的 OSX10 7 511G63 完整版 dmg 系统镜像文件在桌面出现 MacOSXInstal 系统会自动打开该文件夹将准备好的 U 盘插入电脑打开 Catalina 系统中的 磁盘工具 点击左上角的显示菜单 勾选 显

    2026年3月19日
    1
  • VS里调试JS

    VS里调试JS在 asp net 开发中 脚本可以提高 bs 程序与客户的交互能力 降低客户端与服务的数据传输 但是大多数 asp net 开发人员还是趋向于避免写客户端脚本或只用脚本完成一些简单的功能 造成这种状况有很多原因 但是脚本程序难以调试是其中的主要原因 下面的操作步骤描述了怎样利用 vs net 中的调试器来调试 javascript 1 首先 要让你的 ie 允许调试脚本 具体步骤如下 nbsp nbsp 打开 i

    2026年3月16日
    2
  • 网站挂马检测 php,Python实现的检测网站挂马程序

    网站挂马检测 php,Python实现的检测网站挂马程序#pythoncheck_change.pyUsage:pythoncheck_change.pyupdate/home/wwwrootpythoncheck_change.pycheck/home/wwwroot#pythoncheck_change.pyupdate/data/www#生成站点的md5值#echo”>/data/www/sitema…

    2022年9月30日
    4
  • Kettle实战视频教程

    Kettle实战视频教程呕心沥血制作的kettle视频教程,免费提供给大家,只要学不死,就往死里学,加油吧少年学完本课程,您将掌握:掌握kettle的基础知识,进阶知识和实际工作中的各种情况适合人群:1、熟悉数据库,想学习ETL的同学,想快速提升竞争力的ETL工程师2、运维相关工作人员课程目标:能够掌握实际工作中遇到的迁移和业务各种实际工作内容课程简介:1、本教程不是单纯的各种控件进行逐个讲解2、所有知识点均全部为项目实战的介绍和总结3、单表和全表所有的同步4、本视频由浅入深,再由深入浅,循序渐进逐步

    2022年5月23日
    38
  • Gemini 学生优惠 SheerID 认证教程:一键验证获取1年免费 Gemini Pro 会员

    Gemini 学生优惠 SheerID 认证教程:一键验证获取1年免费 Gemini Pro 会员

    2026年3月15日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号