Azkaban教程[通俗易懂]

Azkaban教程[通俗易懂]目录一、简介二、各种调度工具特性对比三、安装配置四、Azkaban实战一、简介Azkaban是在LinkedIn上创建的用于运行Hadoop作业的批处理工作流作业调度程序。Azkaban通过工作依赖性解决订购问题,并提供易于使用的Web用户界面来维护和跟踪您的工作流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系为什么需要工作流调度?一个完整的数…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

目录

一、简介

二、各种调度工具特性对比

三、安装配置

四、Azkaban实战


一、简介

Azkaban是在LinkedIn上创建的用于运行Hadoop作业的批处理工作流作业调度程序。Azkaban通过工作依赖性解决订购问题,并提供易于使用的Web用户界面来维护和跟踪您的工作流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系

为什么需要工作流调度?

Azkaban教程[通俗易懂]

一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等。各任务单元之间存在时间先后及前后依赖关系,为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;

简单的任务调度:直接使用 linux 的 crontab 来定义。复杂的任务调度:在hadoop领域,常见的工作流调度器有Oozie, Azkaban,Cascading,Hamake等

二、各种调度工具特性对比

下面的表格对上述四种hadoop工作流调度器的关键特性进行了比较,尽管这些工作流调度器能够解决的需求场景基本一致,但在设计理念,目标用户,应用场景等方面还是存在显著的区别,在做技术选型的时候,可以提供参考

特性

Hamake

Oozie

Azkaban

Cascading

工作流描述语言

XML

XML (xPDL based)

text file with key/value pairs

Java API

依赖机制

data-driven

explicit

explicit

explicit

是否要web容器

No

Yes

Yes

No

进度跟踪

console/log messages

web page

web page

Java API

Hadoop job调度支持

no

yes

yes

yes

运行模式

command line utility

daemon

daemon

API

Pig支持

yes

yes

yes

yes

事件通知

no

no

no

yes

需要安装

no

yes

yes

no

支持的hadoop版本

0.18+

0.20+

currently unknown

0.18+

重试支持

no

workflownode evel

yes

yes

运行任意命令

yes

yes

yes

yes

Amazon EMR支持

yes

no

currently unknown

yes

Azkaban与Oozie对比

对市面上最流行的两种调度器,给出以下详细对比,以供技术选型参考。总体来说,ooize相比azkaban是一个重量级的任务调度系统,功能全面,但配置使用也更复杂。如果可以不在意某些功能的缺失,轻量级调度器azkaban是很不错的候选对象。

三、安装配置

1、解压安装 ,需要依赖mysql建库数据,尽量在有mysql、hive等机器上安装

unzip 文件 -d apps/    
azkaban-web-server-2.5.0.tar.gz
azkaban-executor-server-2.5.0.tar.gz
azkaban-sql-script-2.5.0.tar.gz

Jetbrains全家桶1年46,售后保障稳定

2、 创建SSL配置,生成 keystore 的密码及相应信息    后续配置文件用到

[root@hdp-1 ~]#  keytool -keystore keystore -alias jetty -genkey -keyalg RSA

输入 keystore 密码: 
再次输入新密码:
您的名字与姓氏是什么?
  [Unknown]: 
您的组织单位名称是什么?
  [Unknown]: 
您的组织名称是什么?
  [Unknown]: 
您所在的城市或区域名称是什么?
  [Unknown]: 
您所在的州或省份名称是什么?
  [Unknown]: 
该单位的两字母国家代码是什么
  [Unknown]:  CN
CN=Unknown, OU=Unknown, O=Unknown, L=Unknown, ST=Unknown, C=CN 正确吗?
  [否]:  y

输入<jetty>的主密码
        (如果和 keystore 密码相同,按回车): 
再次输入新密码:

3、将 keystore 拷贝到 azkaban web 服务器根目录中

[root@hdp-1 hadoop-2.7.2]$ mv keystore /root/apps/azkaban/azkaban-web-2.5.0

4、时间同步配置
先配置好服务器节点上的时区
1)如果在 /usr/share/zoneinfo/ 这个目录下不存在时区配置文件 Asia/Shanghai,就要用 tzselect 生成。

[root@hdp-8 azkaban-web-2.5.0]# tzselect
Please identify a location so that time zone rules can be set correctly.
Please select a continent or ocean.
 1) Africa
 2) Americas
 3) Antarctica
 4) Arctic Ocean
 5) Asia
 6) Atlantic Ocean
 7) Australia
 8) Europe
 9) Indian Ocean
10) Pacific Ocean
11) none - I want to specify the time zone using the Posix TZ format.
#? 5
Please select a country.
 1) Afghanistan          18) Israel            35) Palestine
 2) Armenia          19) Japan         36) Philippines
 3) Azerbaijan          20) Jordan            37) Qatar
 4) Bahrain          21) Kazakhstan        38) Russia
 5) Bangladesh          22) Korea (North)     39) Saudi Arabia
 6) Bhutan          23) Korea (South)     40) Singapore
 7) Brunei          24) Kuwait            41) Sri Lanka
 8) Cambodia          25) Kyrgyzstan        42) Syria
 9) China          26) Laos          43) Taiwan
10) Cyprus          27) Lebanon           44) Tajikistan
11) East Timor          28) Macau         45) Thailand
12) Georgia          29) Malaysia          46) Turkmenistan
13) Hong Kong          30) Mongolia          47) United Arab Emirates
14) India          31) Myanmar (Burma)       48) Uzbekistan
15) Indonesia          32) Nepal         49) Vietnam
16) Iran          33) Oman          50) Yemen
17) Iraq          34) Pakistan
#? 9
Please select one of the following time zone regions.
1) Beijing Time
2) Xinjiang Time
#? 1
The following information has been given:
    China
    Beijing Time
Therefore TZ='Asia/Shanghai' will be used.
Local time is now:    Wed Jun 14 09:16:46 CST 2017.
Universal Time is now:    Wed Jun 14 01:16:46 UTC 2017.
Is the above information OK?
1) Yes
2) No
#? 1

2)拷贝该时区文件,覆盖系统本地时区配置
cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

3)集群时间同步
sudo date -s ‘2017-06-14 09:23:45’
hwclock -w

5、配置文件
1 Web 服务器配置
1)进入 azkaban web 服务器安装目录 conf 目录,打开 azkaban.properties 文件

#Azkaban Personalization Settings
azkaban.name=Test
azkaban.label=My Local Azkaban
azkaban.color=#FF3601
azkaban.default.servlet.path=/index
web.resource.dir=web/
default.timezone.id=Asia/Shanghai

#Azkaban UserManager class
user.manager.class=azkaban.user.XmlUserManager
user.manager.xml.file=conf/azkaban-users.xml

#Loader for projects
executor.global.properties=conf/global.properties
azkaban.project.dir=projects

database.type=mysql
mysql.port=3306
mysql.host=hdp-8
mysql.database=azkaban
mysql.user=root
mysql.password=lucas
mysql.numconnections=100

# Velocity dev mode
velocity.dev.mode=false

# Azkaban Jetty server properties.
jetty.maxThreads=25
jetty.ssl.port=8443
jetty.port=8081
jetty.keystore=keystore
jetty.password=lucasma
jetty.keypassword=lucasma
jetty.truststore=keystore
jetty.trustpassword=lucasma

# Azkaban Executor settings
executor.port=12321

# mail settings
mail.sender=xxxxxxxx@163.com
mail.host=smtp.163.com 
job.failure.email=xxxxxxxx@163.com
job.success.email=xxxxxxxx@163.com

lockdown.create.projects=false

cache.directory=cache

2)web 服务器用户配置

在 azkaban web 服务器安装目录 conf 目录,按照如下配置修改 azkaban-users.xml 文件,增加管理员用户。

<azkaban-users>
    <user username="azkaban" password="azkaban" roles="admin" groups="azkaban" />
    <user username="metrics" password="metrics" roles="metrics"/>
    <user username="admin" password="admin" roles="admin,metrics" />
    <role name="admin" permissions="ADMIN" />
    <role name="metrics" permissions="METRICS"/>
</azkaban-users>

2、 执行服务器配置
1)进入执行服务器安装目录 conf,打开 azkaban.properties

#Azkaban
default.timezone.id=Asia/Shanghai

# Azkaban JobTypes Plugins
azkaban.jobtype.plugin.dir=plugins/jobtypes

#Loader for projects
executor.global.properties=conf/global.properties
azkaban.project.dir=projects

database.type=mysql
mysql.port=3306
mysql.host=hdp-8
mysql.database=azkaban
mysql.user=root
mysql.password=lucas
mysql.numconnections=100

# Azkaban Executor settings
executor.maxThreads=50
executor.port=12321
executor.flow.threads=30

3、mysql建库建表

mysql > CREATE DATABASE azkaban
mysql >use azkaban
mysql >source /root/apps/azkaban/azkaban-2.5.0/create-all-sql-2.5.0.sql

6、启动 web 服务器
在azkaban web服务器目录下执行启动命令    bin内执行可能会造成ui界面没有css样式

 bin/azkaban-web-start.sh 

 启动执行服务器    在执行服务器目录下执行启动命令

bin/azkaban-executor-start.sh

启动完成后,在浏览器(建议使用谷歌浏览器)中输入:
https://hdp-1:8443,即可访问 azkaban 服务了。在登录中输入刚才新的户用名及密码,点击 login。

四、Azkaban实战

1、单一job实战

  • 创建job描述文件
vim command.job

#command.job
type=command                                                    
command=echo hello!xin

将job文件打包成zip文件 zip command.job,通过azkaban的web管理平台创建project并上传job压缩包,创建project,执行execute

2、多job工作流flow

  • 创建有依赖关系的多个job描述,第一个job:foo.job
# foo.job
type=command
command=echo foo
  • 第二个job:bar.job依赖foo.job
# bar.job
type=command
dependencies=foo
command=echo bar

3、操作hadoop

  • vim fs.job   显示hdfs所有文件
# fs.job
type=command
command=hadoop fs -lsr /
  • 操作hive,hive脚本test.sql
use shcool;
drop table IF EXISTS teacher;
create table teacher(id int,name string,age int) row format delimited fields terminated by ',' ;
load data inpath 'file:///root/hiveinput.txt' into table teacher;
select * from aztest;

#job文件hivef.job
# hivef.job
type=command
command=hive -f 'test.sql'
  • MapReduce 任务   将 job 资源和jar包打到一个 zip 包中
type=command
command=/opt/module/hadoop-2.7.2/bin/hadoop jar hadoop-mapreduce-examples-2.7.2.jar wordcount /wordcount/input /wordcount/output

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/206830.html原文链接:https://javaforall.net

(0)
上一篇 2025年8月3日 下午6:15
下一篇 2025年8月3日 下午6:43


相关推荐

  • js怎么能取得多选下拉框选中的多个值?

    js怎么能取得多选下拉框选中的多个值?

    2021年11月8日
    45
  • mysql econnreset_MySQL在node.js服务器上的空闲时间后给出“ read ECONNRESET”错误「建议收藏」

    mysql econnreset_MySQL在node.js服务器上的空闲时间后给出“ read ECONNRESET”错误「建议收藏」我正在运行通过node-mysql模块连接到MySQL的Node服务器。连接和查询MySQL最初运行良好,没有任何错误,但是,将Node服务器闲置几个小时后的第一个查询会导致错误。错误是熟悉的readECONNRESET,来自node-mysql模块的内部。堆栈跟踪(请注意,跟踪的三个条目属于我的应用程序的错误报告代码):Erroratexports.Error.utils.createClas…

    2022年6月17日
    35
  • gateway 鉴权_gateway网关集群

    gateway 鉴权_gateway网关集群前言说起鉴权,大多数会立马想到各种鉴权的技术,比如过滤器、拦截器、安全治理框架shiro、spring-security等等,它们在不同的业务场景下发挥的作用各不相同,但是总体来说都有一个相似的作用,就是作为后端服务的安全防护层而在微服务架构越加流行的时代,网关作为一个独立的组件从众多的服务中拆分出来作为架构的一部分,承载着重大的作用,比如安全拦截,动态路由,负载均衡等,这一点之前的zuul和gateway篇章中都有所交代一个被大家逐渐接受的共识就是,网关从微服务中独立出来作为一个服务进行治理,就不单

    2022年10月11日
    7
  • 数据同步工具

    数据同步工具公司要搞数据平台,首当其冲的是把旧库的数据导入到新库中,原本各种数据库大部分都提供了导入导出的工具,但是数据存储到各个地方,mongdb,hbase,mysql,oracle等各种各样的不同数据库,同步起来头都大了因此最近使用了一些数据同步工具,记录下来:离线导入导出DataX阿里的Datax是比较优秀的产品,基于python,提供各种数据村塾的读写插件,多线程执行,使用起…

    2022年6月28日
    31
  • mt4电脑版安装教程_mt4中文版下载正版官网

    mt4电脑版安装教程_mt4中文版下载正版官网MT4软件版本比较多,电脑版,手机版(安卓和IOS),以及MAC版都有。下载和安装电脑版和其它软件的流程是一样的。首先第一步是要获取到软件包,在http://mt4.m1.xinclo.xyz/就行。下载完毕,然后是解压,全自动安装过程,按照指示进行安装。安装成功后,在登录自己的MT4账户即可。接下来就是设置一些自己要用到的指标。…

    2022年8月15日
    9
  • Nano-Banana虚拟化部署:VMware环境配置最佳实践

    Nano-Banana虚拟化部署:VMware环境配置最佳实践

    2026年3月15日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号