Apache Oozie 简介
Apache Oozie 是 Hadoop 的工作流程调度程序. 它是一个运行从属作业工作流程的系统. 在这里, 允许用户创建工作流的有向非循环图 , 可以在 Hadoop 中并行和顺序运行.
工作流引擎: 工作流引擎的职责是存储和运行由 Hadoop 作业组成的工作流, 例如 MapReduce,Pig,Hive.
协调器引擎 : 它根据预定义的计划和数据的可用性运行工作流作业.
Oozie 具有可扩展性, 可以在 Hadoop 集群中管理数千个工作流(每个工作流由几十个作业组成).
Oozie 也非常灵活. 人们可以轻松地启动, 停止, 暂停和重新运行作业. Oozie 使重新运行失败的工作流变得非常容易. 人们可以很容易地理解由于停机或故障而赶上错过或失败的工作是多么困难. 甚至可以跳过特定的故障节点.
image.PNG
OOZIE 如何运作?
Oozie 作为群集中的服务运行, 客户端提交工作流程定义以立即或稍后处理.
Oozie 工作流由动作 (action) 节点和控制流节点组成 .
动作节点表示工作流任务, 例如, 将文件移动到 HDFS, 运行 MapReduce,Pig 或 Hive 作业, 使用 Sqoop 导入数据或运行脚本.
控制流节点通过允许诸如条件逻辑的构造来控制动作之间的工作流执行, 可以根据较早动作节点的结果走不同的分支.
启动节点指工作流作业的开始.
结束节点, 表示作业结束.
错误节点指出现错误和要打印的相应错误消息.
在执行工作流程结束时, Oozie 使用 HTTP 回调来更新具有工作流状态的客户端. 进入或退出动作节点也可能触发回调.
image.PNG
参考资料
python 测试开发项目实战 - 目录
python 工具书籍下载 - 持续更新
python 3.7 极速入门教程 - 目录
讨论 qq 群 630011153 144081101
- <name of workflow>
- /
- </name>
- ??? lib/ ? ??? hadoop-examples.jar
- nameNode=hdfs://localhost:8020
- jobTracker=localhost:8021
- oozie.wf.application.path=${
- nameNode
- }/user/${
- user.name
- }/<name of workflow>
来源: http://www.jianshu.com/p/13ac09aa5966