大数据之azkaban任务调度器

原创已于 2022-05-02 16:25:42 修改 · 1.2k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #azkaban #任务调度

于 2020-08-22 23:55:21 首次发布

大数据原理专栏收录该内容

34 篇文章

订阅专栏

一、azkaban介绍

一个完整的数据分析系统通常都是由大量任务单元组成：

shell脚本程序、java程序、mapreduce程序、hive脚本等

为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行。

二、安装azkaban

1、上传安装包（3个），并解压

2、导入脚本

mysql> create database azkaban;
mysql> use azkaban;
Database changed
mysql> source /home/hadoop/azkaban-2.5.0/create-all-sql-2.5.0.sql;

3、生成证书文件

 keytool -keystore keystore -alias jetty -genkey -keyalg RSA

将生成 keystore 证书文件拷贝到 azkaban web服务

cp keystore azkaban/server

4、修改配置文件

同步时间

cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

进入azkaban web服务器安装目录 conf下，修改azkaban.properties

#Azkaban Personalization Settings
azkaban.name=Test                          #服务器UI名称,用于服务器上方显示的名字
azkaban.label=My Local Azkaban             #描述
azkaban.color=#FF3601                      #UI颜色
azkaban.default.servlet.path=/index        
web.resource.dir=web/                      #默认根web目录
default.timezone.id=Asia/Shanghai          #默认时区,已改为亚洲/上海 默认为美国
 
#Azkaban UserManager class
user.manager.class=azkaban.user.XmlUserManager      #用户权限管理默认类
user.manager.xml.file=conf/azkaban-users.xml        #用户配置,具体配置参加下文
 
#Loader for projects
executor.global.properties=conf/global.properties    # global配置文件所在位置
azkaban.project.dir=projects                                                #
 
database.type=mysql                #数据库类型
mysql.port=3306                    #端口号
mysql.host=localhost               #数据库连接IP
mysql.database=azkaban             #数据库实例名
mysql.user=root                    #数据库用户名
mysql.password=root                #数据库密码
mysql.numconnections=100           #最大连接数
 
# Velocity dev mode
velocity.dev.mode=false
# Jetty服务器属性.
jetty.maxThreads=25                #最大线程数
jetty.ssl.port=8443                #Jetty SSL端口
jetty.port=8081                    #Jetty端口
jetty.keystore=keystore            #SSL文件名
jetty.password=123456              #SSL文件密码
jetty.keypassword=123456           #Jetty主密码 与 keystore文件相同
jetty.truststore=keystore          #SSL文件名
jetty.trustpassword=123456         # SSL文件密码
 
# 执行服务器属性
executor.port=12321               #执行服务器端口
 
# 邮件设置
mail.sender=xxxxxxxx@163.com         #发送邮箱
mail.host=smtp.163.com               #发送邮箱smtp地址
mail.user=xxxxxxxx                   #发送邮件时显示的名称
mail.password=**********             #邮箱密码
job.failure.email=xxxxxxxx@163.com   #任务失败时发送邮件的地址
job.success.email=xxxxxxxx@163.com   #任务成功时发送邮件的地址
lockdown.create.projects=false                                           #
cache.directory=cache                                                            #缓存目录

进入azkaban web服务器conf目录,修改azkaban-users.xml（用户配置）

<azkaban-users>
        <user username="azkaban" password="azkaban" roles="admin" groups="azkaban" />
        <user username="metrics" password="metrics" roles="metrics"/>
        <user username="admin" password="admin" roles="admin,metrics" />
        <role name="admin" permissions="ADMIN" />
        <role name="metrics" permissions="METRICS"/>
</azkaban-users>

进入executor安装目录conf,修改azkaban.properties

#Azkaban
default.timezone.id=Asia/Shanghai                   #时区
 
# Azkaban JobTypes 插件配置
azkaban.jobtype.plugin.dir=plugins/jobtypes         #jobtype 插件所在位置
 
#Loader for projects
executor.global.properties=conf/global.properties
azkaban.project.dir=projects
 
#数据库设置
database.type=mysql                                 #数据库类型(目前只持）
mysql.port=3306                                     #数据库端口号
mysql.host=192.168.20.200                           #数据库IP地址
mysql.database=azkaban                              #数据库实例名
mysql.user=root                                     #数据库用户名
mysql.password=root                                 #数据库密码
mysql.numconnections=100                            #最大连接数
 
# 执行服务器配置
executor.maxThreads=50                              #最大线程数
executor.port=12321                                 #端口号(如修改,请与web服务中一致)
executor.flow.threads=30                            #线程数

5、启动

启动web服务器：在azkaban web服务器目录下执行

bin/azkaban-web-start.sh

启动exexutor服务器：在执行服务器目录下执行

bin/azkaban-executor-start.sh

在谷歌浏览器中输入https://服务器IP地址:8443 ,即可访问azkaban服务了

三、入门示例

Azkaba内置的任务类型支持command、java

1、创建job描述文件 vi command.job

#command.job
type=command                                                    
command=echo 'hello'

2、将job资源文件打包成zip文件

zip command.job

3、通过azkaban的web管理平台创建project并上传job压缩包

在这里插入图片描述

4、启动执行该job

在这里插入图片描述
四、运行shell任务

1、编写myshell.sh

#!/bin/bash
for i in {1..1000}
do
echo $i >> /root/myscript.log
sleep 0.1
done

2、编写job

type=command
command=sh myshell.sh

五、多个依赖关系任务

1、创建第一个job

#!/bin/bash
for i in {1..600}
do
echo "a ${i} " >> /root/myscripta.log
sleep 0.1
done

type=command
command=sh a.sh

2、创建第二个job

#!/bin/bash
for i in {1..800}
do
echo "b ${i} " >> /root/myscriptb.log
sleep 0.1
done

type=command
command=sh b.sh
dependencies=a

六、hdfs任务

1、编写hdfsdir.sh

#!/bin/bash

DT=`date -d'-1 day' +%Y-%m-%d`

HADOOP_HOME=/opt/apps/hadoop-3.1.1/
${HADOOP_HOME}/bin/hdfs dfs -mkdir -p /log_bak/${DT}
${HADOOP_HOME}/bin/hdfs dfs -mv /log/${DT}/*.txt /log_bak/${DT}/

2、编写job

type=command
command=sh hdfsdir.sh

七、mapreduce任务

1、编写一个mr程序，并打包

2、wc.sh

#!/bin/bash

export HADOOP_HOME=/opt/apps/hadoop-3.1.1/
${HADOOP_HOME}/bin/hadoop jar azkaban_demos-1.0.jar cn.doitedu.mr.WordCount $1 $2

3、编写job

type=command
command=sh wc.sh ${INPATH} ${OUTPATH}

八、spark任务

1、编写一个spark程序，并打包

2、wc.sh

#!/bin/bash

#############################################
#                                           #
#  @author hunter@doitedu                   #
#  @date   2020-10-10                       #
#  @desc   id绑定评分计算任务启动脚本       #
#                                           #
#############################################


export SPARK_HOME=/opt/apps/spark-2.4.4

${SPARK_HOME}/bin/spark-submit \
--master yarn \
--deploy-mode cluster \
--class cn.doitedu.spark.WordCount \
--name wordcount \
--driver-memory 1024M \
--executor-memory 2G \
--queue default \
--num-executors 1 azkaban_demos-1.0.jar $1 $2

3、编写job

type=command
command=sh wc.sh ${INPATH} ${OUTPATH}

失败策略：

某个 job 如果失败，有如下应对策略可以选择：

Finish Current Running：只完成当前已经在运行的job，并且不会再启动新的 job
Cancel All ：立刻杀掉所有 job，并立刻失败整个 Flow
Finish All Possible ：保持这些 job 继续运行，只要它的依赖 job 是 ok 的

并行策略：

Skip execution ：后面的 execution 取消
Run Concurrently：两个 execution 并行运行
Pipeline：
        Level1：前 execution 中 jobA 如果还没执行完，则后 execution 会在 jobA 前阻塞；
        Level2：前 execution 中 jobA 及其所有子 job 如果还没执行完，则后 execution 会在 jobA 前阻塞