Azkaban教程[通俗易懂]

Azkaban教程[通俗易懂]目录一、简介二、各种调度工具特性对比三、安装配置四、Azkaban实战一、简介Azkaban是在LinkedIn上创建的用于运行Hadoop作业的批处理工作流作业调度程序。Azkaban通过工作依赖性解决订购问题,并提供易于使用的Web用户界面来维护和跟踪您的工作流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系为什么需要工作流调度?一个完整的数…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

目录

一、简介

二、各种调度工具特性对比

三、安装配置

四、Azkaban实战


一、简介

Azkaban是在LinkedIn上创建的用于运行Hadoop作业的批处理工作流作业调度程序。Azkaban通过工作依赖性解决订购问题,并提供易于使用的Web用户界面来维护和跟踪您的工作流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系

为什么需要工作流调度?

Azkaban教程[通俗易懂]

一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等。各任务单元之间存在时间先后及前后依赖关系,为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;

简单的任务调度:直接使用 linux 的 crontab 来定义。复杂的任务调度:在hadoop领域,常见的工作流调度器有Oozie, Azkaban,Cascading,Hamake等

二、各种调度工具特性对比

下面的表格对上述四种hadoop工作流调度器的关键特性进行了比较,尽管这些工作流调度器能够解决的需求场景基本一致,但在设计理念,目标用户,应用场景等方面还是存在显著的区别,在做技术选型的时候,可以提供参考

特性

Hamake

Oozie

Azkaban

Cascading

工作流描述语言

XML

XML (xPDL based)

text file with key/value pairs

Java API

依赖机制

data-driven

explicit

explicit

explicit

是否要web容器

No

Yes

Yes

No

进度跟踪

console/log messages

web page

web page

Java API

Hadoop job调度支持

no

yes

yes

yes

运行模式

command line utility

daemon

daemon

API

Pig支持

yes

yes

yes

yes

事件通知

no

no

no

yes

需要安装

no

yes

yes

no

支持的hadoop版本

0.18+

0.20+

currently unknown

0.18+

重试支持

no

workflownode evel

yes

yes

运行任意命令

yes

yes

yes

yes

Amazon EMR支持

yes

no

currently unknown

yes

Azkaban与Oozie对比

对市面上最流行的两种调度器,给出以下详细对比,以供技术选型参考。总体来说,ooize相比azkaban是一个重量级的任务调度系统,功能全面,但配置使用也更复杂。如果可以不在意某些功能的缺失,轻量级调度器azkaban是很不错的候选对象。

三、安装配置

1、解压安装 ,需要依赖mysql建库数据,尽量在有mysql、hive等机器上安装

unzip 文件 -d apps/    
azkaban-web-server-2.5.0.tar.gz
azkaban-executor-server-2.5.0.tar.gz
azkaban-sql-script-2.5.0.tar.gz

Jetbrains全家桶1年46,售后保障稳定

2、 创建SSL配置,生成 keystore 的密码及相应信息    后续配置文件用到

[root@hdp-1 ~]#  keytool -keystore keystore -alias jetty -genkey -keyalg RSA

输入 keystore 密码: 
再次输入新密码:
您的名字与姓氏是什么?
  [Unknown]: 
您的组织单位名称是什么?
  [Unknown]: 
您的组织名称是什么?
  [Unknown]: 
您所在的城市或区域名称是什么?
  [Unknown]: 
您所在的州或省份名称是什么?
  [Unknown]: 
该单位的两字母国家代码是什么
  [Unknown]:  CN
CN=Unknown, OU=Unknown, O=Unknown, L=Unknown, ST=Unknown, C=CN 正确吗?
  [否]:  y

输入<jetty>的主密码
        (如果和 keystore 密码相同,按回车): 
再次输入新密码:

3、将 keystore 拷贝到 azkaban web 服务器根目录中

[root@hdp-1 hadoop-2.7.2]$ mv keystore /root/apps/azkaban/azkaban-web-2.5.0

4、时间同步配置
先配置好服务器节点上的时区
1)如果在 /usr/share/zoneinfo/ 这个目录下不存在时区配置文件 Asia/Shanghai,就要用 tzselect 生成。

[root@hdp-8 azkaban-web-2.5.0]# tzselect
Please identify a location so that time zone rules can be set correctly.
Please select a continent or ocean.
 1) Africa
 2) Americas
 3) Antarctica
 4) Arctic Ocean
 5) Asia
 6) Atlantic Ocean
 7) Australia
 8) Europe
 9) Indian Ocean
10) Pacific Ocean
11) none - I want to specify the time zone using the Posix TZ format.
#? 5
Please select a country.
 1) Afghanistan          18) Israel            35) Palestine
 2) Armenia          19) Japan         36) Philippines
 3) Azerbaijan          20) Jordan            37) Qatar
 4) Bahrain          21) Kazakhstan        38) Russia
 5) Bangladesh          22) Korea (North)     39) Saudi Arabia
 6) Bhutan          23) Korea (South)     40) Singapore
 7) Brunei          24) Kuwait            41) Sri Lanka
 8) Cambodia          25) Kyrgyzstan        42) Syria
 9) China          26) Laos          43) Taiwan
10) Cyprus          27) Lebanon           44) Tajikistan
11) East Timor          28) Macau         45) Thailand
12) Georgia          29) Malaysia          46) Turkmenistan
13) Hong Kong          30) Mongolia          47) United Arab Emirates
14) India          31) Myanmar (Burma)       48) Uzbekistan
15) Indonesia          32) Nepal         49) Vietnam
16) Iran          33) Oman          50) Yemen
17) Iraq          34) Pakistan
#? 9
Please select one of the following time zone regions.
1) Beijing Time
2) Xinjiang Time
#? 1
The following information has been given:
    China
    Beijing Time
Therefore TZ='Asia/Shanghai' will be used.
Local time is now:    Wed Jun 14 09:16:46 CST 2017.
Universal Time is now:    Wed Jun 14 01:16:46 UTC 2017.
Is the above information OK?
1) Yes
2) No
#? 1

2)拷贝该时区文件,覆盖系统本地时区配置
cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

3)集群时间同步
sudo date -s ‘2017-06-14 09:23:45’
hwclock -w

5、配置文件
1 Web 服务器配置
1)进入 azkaban web 服务器安装目录 conf 目录,打开 azkaban.properties 文件

#Azkaban Personalization Settings
azkaban.name=Test
azkaban.label=My Local Azkaban
azkaban.color=#FF3601
azkaban.default.servlet.path=/index
web.resource.dir=web/
default.timezone.id=Asia/Shanghai

#Azkaban UserManager class
user.manager.class=azkaban.user.XmlUserManager
user.manager.xml.file=conf/azkaban-users.xml

#Loader for projects
executor.global.properties=conf/global.properties
azkaban.project.dir=projects

database.type=mysql
mysql.port=3306
mysql.host=hdp-8
mysql.database=azkaban
mysql.user=root
mysql.password=lucas
mysql.numconnections=100

# Velocity dev mode
velocity.dev.mode=false

# Azkaban Jetty server properties.
jetty.maxThreads=25
jetty.ssl.port=8443
jetty.port=8081
jetty.keystore=keystore
jetty.password=lucasma
jetty.keypassword=lucasma
jetty.truststore=keystore
jetty.trustpassword=lucasma

# Azkaban Executor settings
executor.port=12321

# mail settings
mail.sender=xxxxxxxx@163.com
mail.host=smtp.163.com 
job.failure.email=xxxxxxxx@163.com
job.success.email=xxxxxxxx@163.com

lockdown.create.projects=false

cache.directory=cache

2)web 服务器用户配置

在 azkaban web 服务器安装目录 conf 目录,按照如下配置修改 azkaban-users.xml 文件,增加管理员用户。

<azkaban-users>
    <user username="azkaban" password="azkaban" roles="admin" groups="azkaban" />
    <user username="metrics" password="metrics" roles="metrics"/>
    <user username="admin" password="admin" roles="admin,metrics" />
    <role name="admin" permissions="ADMIN" />
    <role name="metrics" permissions="METRICS"/>
</azkaban-users>

2、 执行服务器配置
1)进入执行服务器安装目录 conf,打开 azkaban.properties

#Azkaban
default.timezone.id=Asia/Shanghai

# Azkaban JobTypes Plugins
azkaban.jobtype.plugin.dir=plugins/jobtypes

#Loader for projects
executor.global.properties=conf/global.properties
azkaban.project.dir=projects

database.type=mysql
mysql.port=3306
mysql.host=hdp-8
mysql.database=azkaban
mysql.user=root
mysql.password=lucas
mysql.numconnections=100

# Azkaban Executor settings
executor.maxThreads=50
executor.port=12321
executor.flow.threads=30

3、mysql建库建表

mysql > CREATE DATABASE azkaban
mysql >use azkaban
mysql >source /root/apps/azkaban/azkaban-2.5.0/create-all-sql-2.5.0.sql

6、启动 web 服务器
在azkaban web服务器目录下执行启动命令    bin内执行可能会造成ui界面没有css样式

 bin/azkaban-web-start.sh 

 启动执行服务器    在执行服务器目录下执行启动命令

bin/azkaban-executor-start.sh

启动完成后,在浏览器(建议使用谷歌浏览器)中输入:
https://hdp-1:8443,即可访问 azkaban 服务了。在登录中输入刚才新的户用名及密码,点击 login。

四、Azkaban实战

1、单一job实战

  • 创建job描述文件
vim command.job

#command.job
type=command                                                    
command=echo hello!xin

将job文件打包成zip文件 zip command.job,通过azkaban的web管理平台创建project并上传job压缩包,创建project,执行execute

2、多job工作流flow

  • 创建有依赖关系的多个job描述,第一个job:foo.job
# foo.job
type=command
command=echo foo
  • 第二个job:bar.job依赖foo.job
# bar.job
type=command
dependencies=foo
command=echo bar

3、操作hadoop

  • vim fs.job   显示hdfs所有文件
# fs.job
type=command
command=hadoop fs -lsr /
  • 操作hive,hive脚本test.sql
use shcool;
drop table IF EXISTS teacher;
create table teacher(id int,name string,age int) row format delimited fields terminated by ',' ;
load data inpath 'file:///root/hiveinput.txt' into table teacher;
select * from aztest;

#job文件hivef.job
# hivef.job
type=command
command=hive -f 'test.sql'
  • MapReduce 任务   将 job 资源和jar包打到一个 zip 包中
type=command
command=/opt/module/hadoop-2.7.2/bin/hadoop jar hadoop-mapreduce-examples-2.7.2.jar wordcount /wordcount/input /wordcount/output

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/206830.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Java反射机制及其使用

    Java反射机制及其使用文章目录1Java反射机制概述2反射及其使用2.1关于类java.lang.Class2.2类的加载2.2.1类的加载过程2.2.2类加载器2.3反射的使用2.3.1创建运行时类的对象2.3.2获取运行时类的属性结构2.3.3获取运行时类的方法结构2.3.4获取运行时类的构造器结构2.3.5获取运行时类的父类信息2.3.6获取运行时类实现的接口2.3.7获取运行时类声明的注解2.3.7获取运行时类所在的包2.3.8调用类的构造函数、操作类的属性、调用类中方法1Java

    2022年7月8日
    17
  • Android手机上使用Socks5全局代理-教程+软件

    Android手机上使用Socks5全局代理-教程+软件前言:在Android上使用系统自带的代理,限制灰常大,仅支持系统自带的浏览器。这样像QQ、飞信、微博等这些单独的App都不能使用系统的代理。如何让所有软件都能正常代理呢?ProxyDroid这个软件能帮你解决!使用方法及步骤如下:一、推荐从GooglePlay下载ProxyDroid,目前最新版本是v2.6.6。二、对ProxyDroid进行配置(基本配置:)…

    2022年6月24日
    609
  • 二十、设计模式总结—后会有期 #和设计模式一起旅行#

    告别 是为了下一次相遇,告别更是新的开始!设计模式整了两个月了,看了一些书籍和一些博客,整体是完成了,但是还有一些模式没有总结出来,不过剩下的模式暂时不准备在更新了,剩下的也相对来说不是那么的重要!在看设计模式的这段时间中,总是有一种感觉,看到其中的一个设计模式,有似曾相识的感觉,看完之后比较清晰了,也会想着在工作那些地方遇到了设计模式,还有就是自己在设计的时候也有一些意识,会考虑…

    2022年2月27日
    37
  • PyCharm社区版安装教程和环境配置及使用[通俗易懂]

    PyCharm社区版安装教程和环境配置及使用[通俗易懂]一、PyCharm官网下载访问官网地址:https://www.jetbrains.com/pycharm/点击首页【Download】按钮,进入下载页面,选择Community下的【Download】,如图:点击后进入“ThankyoufordownloadingPyCharm!”页面,选择“另存为”,如图:选择本地目录路径,点击【保存】,开始下载:双击本地的PyCharm安装包,进入安装首页,点击【Next>】按钮,如图:进入“ChooseInstallLocati

    2022年8月28日
    5
  • Tomcat安装及配置[通俗易懂]

    Tomcat安装及配置[通俗易懂]Tomcat安装及配置简述:在window10系统上安装及配置Tomcat9.0.x

    2022年6月9日
    20
  • linux搭建git服务端_linux搭建git服务端

    linux搭建git服务端_linux搭建git服务端1、添加git用户useradd-mgit2、修改git用户密码(密码为git)passwdgit3、解压git-1.7.12.2.tar.gz并安装gittar-xvfgit-1.7.12.2.tar.gzcdgit-1.7.12.2makemakeinstall4、初始化一下git用户,为了安装gitosis做准备。在任何一台机器上使用git,第一次必须要初始化一…

    2022年9月27日
    1

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号