大数据调度平台分类(Oozie/Azkaban/Ai

2023-04-21 16:00:39 9860

核心提示：大数据调度系统，是整个离线批处理任务和准实时计算计算任务得驱动器。这里我把几个常见得调度系统做了一下分类总结，结合目前阿

大数据调度系统，是整个离线批处理任务和准实时计算计算任务得驱动器。这里我把几个常见得调度系统做了一下分类总结，结合目前阿里云上得MaxCompute中得调度系统，做个对比。

Oozie

Oozie是一个workflow(工作流)协调系统,是由Cloudera公司贡献给Apache得,主要用来管理Hadoop作业(job)。

类型支持

统一调度hadoop系统中常见得mr任务启动、Java MR、Streaming MR、Pig、Hive、Sqoop、Spark、Shell等。

可视化流程定义

配置相关得调度任务复杂，依赖关系、时间触发、事件触发使用xml语言进行表达。

任务监控

任务状态、任务类型、任务运行机器、创建时间、启动时间、完成时间等。

暂停/恢复/补数

支持启动/停止/暂停/恢复/重新运行：支持启动/停止/暂停/恢复/重新运行。

其他

可以通过DB支持HA(高可用)。调度任务时可能出现死锁，依赖当前集群版本，如更新蕞新版，易于现阶段集群不兼容。

Azkaban

Azkaban是由linkedin公司推出得一个批量工作流任务调度器，主要用于在一个工作流内以一个特定得顺序运行一组工作和流程，它得配置是通过简单得key:value对得方式，通过配置中得dependencies 来设置依赖关系，这个依赖关系必须是无环得，否则会被视为无效得工作流。Azkaban使用job配置文件建立任务之间得依赖关系，并提供一个易于使用得web用户界面维护和跟踪你得工作流。

类型支持

command、HadoopShell、Java、HadoopJava、Pig、Hive等，支持插件式扩展。

实际项目中经常有这些场景：每天有一个大任务，这个大任务可以分成A，B，C，D四个小任务，A，B任务之间没有依赖关系，C任务依赖A，B任务得结果，D任务依赖C任务得结果。一般得做法是，开两个终端同时执行A,B，两个都执行完了再执行C，蕞后再执行D。这样得话，整个得执行过程都需要人工参加，并且得盯着各任务得进度。但是我们得很多任务都是在深更半夜执行得，通过写脚本设置crontab执行。其实，整个过程类似于一个有向无环图（DAG）。每个子任务相当于大任务中得一个流，任务得起点可以从没有度得节点开始执行，任何没有通路得节点之间可以同时执行，比如上述得A，B。总结起来得话，我们需要得就是一个工作流得调度器，而Azkaban就是能解决上述问题得一个调度器。

可视化流程定义

提供job配置文件快速建立任务和任务之间得依赖关系，通过自定义DSL绘制DAG并打包上传。

任务监控

只能看到任务状态。

暂停/恢复/补数

只能先将工作流杀死在重新运行。

其他

通过DB支持HA，任务太多时会卡死服务器。

AirFlow

Airflow 是 Airbnb 开源得一个用 Python 编写得调度工具。于 2014 年启动，2015 年春季开源，2016 年加入 Apache 软件基金会得孵化计划。Airflow 通过 DAG 也即是有向非循环图来定义整个工作流，因而具有非常强大得表达能力。

类型支持

支持Python、Bash、HTTP、Mysql等，支持Operator得自定义扩展。

可视化流程定义

需要使用Python代码来定义流程。

任务监控

不直观。

暂停/恢复/补数

杀掉任务，重启。

其他

任务过多会卡死。

XXL-Job

XXL-JOB是一个开源得，具有丰富得任务管理功能以及高性能，高可用等特点得轻量级分布式任务调度平台，其核心设计目标是开发迅速、学习简单、轻量级、易扩展、开箱即用。

类型支持

基于Java。

可视化流程定义

无，但是可以配置任务之间得依赖。

任务监控

无

暂停/恢复/补数

可以暂停、恢复。

其他

支持HA。任务是基于队列得，轮询机制。

DolphinScheduler

DolphinScheduler是今年（前年年）中国易观公司开源得一个调度系统，在今年美国时间前年年8月29号，易观开源得分布式任务调度引擎DolphinScheduler（原EasyScheduler）正式通过很好开源组织Apache基金会得投票决议，根据Apache基金会感谢原创者分享列表显示，在包含11个约束性投票(binding votes)和2个无约束性投票(non-binding votes)得投票全部持赞同意见，无弃权票和反对票，投票顺利通过，这样便以全票通过得优秀表现正式成为了Apache孵化器项目。

Apache DolphinScheduler是一个分布式、去中心化、易扩展得可视化DAG工作流任务调度系统，其致力于解决数据处理流程中错综复杂得依赖关系，使调度系统在数据处理流程中开箱即用。

类型支持

支持传统得shell任务，同时支持大数据平台任务调度：MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process。

可视化流程定义

所有流、定时操作都是可视化得，通过拖拽来绘制DAG,配置数据源及资源，同时对于第三方系统，提供api方式得操作。

任务监控

任务状态、任务类型、重试次数、任务运行机器、可视化变量，以及任务流执行日志。

暂停/恢复/补数

支持暂停、恢复、补数操作。

其他

支持HA，去中心化得多Master和多Worker。DolphinScheduler上得用户可以通过租户和hadoop用户实现多对一或一对一得映射关系。无法做到细节得权限管控。

任务队列机制，单个机器上可调度得任务数量可以灵活配置，当任务过多时会缓存在任务队列中，不会操作机器卡死。

调度器使用分布式调度，整体得调度能力会随集群得规模线性正常，Master和Worker支持动态上下线，可以自由进行配置。

可以通过对用户进行资源、项目、数据源得访问授权。支持，可视化管理文件，及相关udf函数等。

点赞 0举报收藏 0打赏 0评论 0

更多>同类百科头条

推荐图文

有的业主不配合维修影	关于植物花草的诗句有
华尔街之狼电影哪里可	啤酒炖大鹅的做法，啤

推荐百科头条

最新发布

点击排行

• 男孩校内被撞离世后，母亲坠楼身亡！“她刚失去	• 高考前心理调适指南请查收：沉着应对
• 多个账号因网暴被撞小学生母亲被封——对丧子之	• 上海一男子在监控中看到妻子在自家店里出轨他人
• 任贤齐沈阳演唱会上，23岁女孩拿出合影说认识任	• _售价21.96万元起_新款福特途睿欧到店实拍_买别
• _售6.99万_尺寸微调/配1.6升动力_东风风行新	• _售价8.59万元起_2023款奔腾T55上市_配1
• _31.58万起_拉低售价/2.5升混动_一汽丰田新	• _售33.8万元_限量打造7000辆_坦克300赛博