数据应用的基本流程大致分为三个步骤,数据的集成接入(多种数据源)、数据的清洗加工(关联、筛选、分组聚合等),最后再是数据的应用(数据报告、趋势图表、大屏展示、统计报表等)。
数据加工是JVS-智能BI核心模块,主要实现屏蔽所有数据库或者数据类型对数据操作的差异化,采用统一的数据加工方式对数据进行操作,而且构建了数据一体化加工引擎(ELT:抽取、装载、转换),解决数据库之间脚本语法不一致(mysql、mongodb等)、有些数据来源没有脚本语法(excel)等情况。在整体的数仓架构中,数据集是在线加工的标准数据形态,数据集配置的过程就似对数据进行加工、清晰、关联、建模的过程,建模完成后,可通过手动数据执行或者周期性的数据执行,形成标准的数据集(通用),如下图所示
图片
其中数据清洗是最考验技术能力的过程。JVS-BI提供了可视化数据加工的工具---数据加工引擎,特点:
• 数仓式统一抽取+存储;
• 流程化任务化加工,屏蔽底层不同数据源的差异,技能门槛降低,不论是excel还是hive 或者mongodb ,用户只需要简单通过流式数据加工配置即可;
• 模拟建模配置,通过拖拉拽的方式,透明化数据建模过程,构建数据处理流程,简单清晰明了;
• 界面化管理,提供快速任务管理工具,原始数据、模型化加工、周期化更新,更加简单高效。

数仓式存储

数仓(Data Warehouse)是一个用于集中存储和管理企业中各种数据的方式,在JVS-BI中,数仓式存储模式是一种将企业各种数据进行整合、清洗、转换、加载,然后存储在一个中心化的数据仓库中的存储模式,它是独立于各个业务平台的独立数据分析系统,对数据的存储、数据的加工用自有平台的服务能力,数据分析加工是需要消耗大量的计算资源,这种模式不会消耗生产系统的计算性能,从而避免统计分析过程影响生产业务。
图片
分析统计尽量不影响生产系统,特别是大量的分析所需的计算资源一定不能依赖于生产系统。

数据集的创建

选中对应要添加数据集的目录,点击“+”新增目录菜单、数据集,这里直接选择数据集时,需要选择新建在哪个目录下,如下图所示
图片
当然也可以直接在目录菜单上点击“+”按钮,直接创建数据集
图片
系统进入新增数据集的界面,需要填写数据集基本的信息,对数据集进行设计
图片
①:可以点击“笔”或者直接点击数据集名称输入框,可以填写数据集在菜单栏上显示的名称
②:可以填写数据集的备注描述
③:展示了数据集配置的 导航栏的相关配置页面:页面设置、数据设计、执行设置、执行日志、数据权限、消息配置等

数据集的状态管理

数据集的状态是用于控制在数据应用中的可见性,状态为启用时数据集为可用状态。
图片
在启用状态下,数据设计不可修改,通过点击禁用/启用按钮修改状态,当状态为启用的时候,在需要选择数据集的时候,才能看到这个数据集(图表、大屏等)

数据集信息预览

数据信息预览包括数据加工的过程输出的结果等等,如下图所示:
图片
• 数据加工:数据流程式加工的概要预览界面,可以查看到节点与流程的配置
• 基本信息:展示数据集的基本信息,包括名称、修改人、创建时间、执行时间、数据集状态等
• 执行日志:数据集加工的执行日志,包括执行时间、执行的数据量、具体过程的消耗时间等
• 输出结果:详细的中间表
• 血缘视图:数据的来源,数据的使用流向

数据集的设计

点击数据集设计按钮(在禁用的状态下,数据集才能进入设计状态)
图片
进入到数据集的设计界面,其中包括基本信息配置、界面化的数据设计、周期性执行设置等具体对数据集的配置管理

设计器界面介绍

• 基本信息页,主要包含数据集的
图片
• 数据设计页
左上角可以设置数据集名称,左侧是系统提供的多种数据处理节点,主界面为数据配置画布,左侧的数据处理节点可以拖拽至画布,点击节点,下侧弹出对应的节点配置界面,后续章节将详细介绍设计器的具体操作使用方式
图片
①:输入输出的基础算子,用户数据引入数据加工流程和完成后输出标准的数据结果;
②:各种数据加工算子(后续章节将详细介绍)
③:数据加工流程配置的画布,支持拖拽式的算子链接配置
④:算子,点击画布中的算子时,系统将展示算子的配置与预览结果(建模结果)的界面
⑤:建模状态标志,绿色标志标识本节点完成模型构建,红色警示标志表示本环节还未完成建模,需要触发自动建模
⑥:在点击算子后会弹出本界面,界面上包括配置与预览建模结果数据.模拟建模采用 任务+流程的思路,每个算子(对数据单一计算处理的方法)提供一些抽象后的基础加工的方式,通过流程连线的方式,将多个算子拼接,实现一系列的对数据加工的过程(建模),并且对该模型任务执行、任务调度进行配置,从而实现自动化的对数据进行 抽取、存储、加工的过程。
在配置过程中模拟引入了一部分真实表结构的部分数据,作为加工的模拟数据,通过每一步,系统去构建每个环节的数据模型(类似于零代码开发的模式),无需关注所需要建模的物理表结构,只关注每个环节我们要的业务数据结果,这样大大降低了 对操作者的技术门槛,也实现了所见即所得的配置清洗建模的过程
• 执行设置界面
本界面是提供对本数据集完成建模后,周期性或者定时触发 完成数据分析结果的构建,如下图所示:
图片
①:前置任务配置,当选择了其他数据集后,系统在执行本数据集时,会先触发前置数据集的执行
②:后置任务配置,当本数据集执行完成时,将触发后置任务,可以选择其他的数据集开始执行。
③:开启定时开关后,系统按照后续的配置可以实现定制周期性的配置
④:录入负责人信息
⑤:录入负责人邮箱信息
⑥:设置定时任务开始时间
⑦:可以设置自定义的corn表达式
⑧:可以快速的设置周期性执行的方式,包括按照小时、天...... 等多种方式周期化执行
• 执行日志
执行日志会记录本数据集执行的历史记录,执行具体的情况,如下图所示
图片
点击详细日志时,系统会把当时执行的具体过程都展示出来
• 权限配置
主要用于对本数据集所涉及的人员进行授权配置,如下图所示,具体的配置介绍查看相关章节。
图片

加工后的结果

通过任务加工后的所得到的数据结果我们称为数据集,数据集是数据加工分析得到的中间结果表,他可以来源于单一数据,也可以来源于多个数据(支持跨库、跨数据类型),通过数据集的配置,从而便捷的实现了联通数据孤岛。下图为数据集的输出结果。
图片
数据集除了输出的结果数据、加工配置的过程,还有任务执行的日志记录与血缘视图,后续相关章节将着重讲解。
在线demo:http://bi.bctools.cn
gitee地址:https://gitee.com/software-minister/jvs-bi


软件部长
43 声望6 粉丝

软件研发行业老司机,提供些踩坑的经验而已