云数据仓库中的集中式作业执行策略

主要观点:介绍了控制图的架构及核心组件,包括查询库表、控制器程序、触发点等,详细说明了各核心组件的作用及字段含义,阐述了 orchestration(编排)的工作流程,包括从触发控制器调用工作流控制器,通过各种参数控制任务控制器执行查询等,还介绍了日志表的作用及相关功能,如智能重启、手动控制、查询变更检测、自动日志历史删除等,最后提及使用的重要注意事项及可进行的增强。

关键信息

  • 核心组件:查询库表包含多种字段用于存储和管理查询;控制器程序有工作流控制器和任务控制器;触发控制器用于调用工作流控制器。
  • orchestration 流程:触发控制器根据作业计划或手动触发调用工作流控制器,生成调用语句传递给任务控制器,按顺序执行查询并存储日志。
  • 功能:智能重启从上次失败点继续执行;手动控制可跳过特定查询;查询变更检测检测查询变化并从开头重新执行;自动日志历史删除清理过期日志。
  • 重要注意事项:避免在查询文本字段使用双连字符;为特定组合提供不同的“Run Order”值;可通过创建单独作业实现多个“Job Groups”并行执行等。
  • 增强:在库表中添加集群大小字段;基于日志表创建作业级统计的仪表盘。

重要细节

  • 工作流控制器用 JavaScript 或 PLSQL 编写,通过参数控制查询选择或迭代执行多个作业组;任务控制器自动控制作业组内查询执行顺序。
  • 触发控制器可通过 ETL 工具或数据库功能调用存储过程;在 Informatica IDMC 中通过创建映射和参数实现复用;在 Snowflake 中创建任务并设置调用语句。
  • 日志表记录查询执行的各种信息,用于故障排查等;规则规定了查询文本字段的格式及“Run Order”字段的使用方法等。
阅读 7
0 条评论