零代码建模：如何通过数仓式存储与流程化加工实现跨数据库的数据整合与分析？

数据应用的基本流程大致分为三个步骤，数据的集成接入（多种数据源）、数据的清洗加工（关联、筛选、分组聚合等），最后再是数据的应用（数据报告、趋势图表、大屏展示、统计报表等）。
数据加工是JVS-智能BI核心模块，主要实现屏蔽所有数据库或者数据类型对数据操作的差异化，采用统一的数据加工方式对数据进行操作，而且构建了数据一体化加工引擎（ELT：抽取、装载、转换），解决数据库之间脚本语法不一致（mysql、mongodb等）、有些数据来源没有脚本语法（excel）等情况。在整体的数仓架构中，数据集是在线加工的标准数据形态，数据集配置的过程就似对数据进行加工、清晰、关联、建模的过程，建模完成后，可通过手动数据执行或者周期性的数据执行，形成标准的数据集（通用），如下图所示

其中数据清洗是最考验技术能力的过程。JVS-BI提供了可视化数据加工的工具---数据加工引擎，特点：
• 数仓式统一抽取+存储；
• 流程化任务化加工，屏蔽底层不同数据源的差异，技能门槛降低，不论是excel还是hive 或者mongodb ，用户只需要简单通过流式数据加工配置即可；
• 模拟建模配置，通过拖拉拽的方式，透明化数据建模过程，构建数据处理流程，简单清晰明了；
• 界面化管理，提供快速任务管理工具，原始数据、模型化加工、周期化更新，更加简单高效。

数仓式存储

数仓（Data Warehouse）是一个用于集中存储和管理企业中各种数据的方式，在JVS-BI中，数仓式存储模式是一种将企业各种数据进行整合、清洗、转换、加载，然后存储在一个中心化的数据仓库中的存储模式，它是独立于各个业务平台的独立数据分析系统，对数据的存储、数据的加工用自有平台的服务能力，数据分析加工是需要消耗大量的计算资源，这种模式不会消耗生产系统的计算性能，从而避免统计分析过程影响生产业务。

分析统计尽量不影响生产系统，特别是大量的分析所需的计算资源一定不能依赖于生产系统。

数据集的创建

选中对应要添加数据集的目录，点击“+”新增目录菜单、数据集，这里直接选择数据集时，需要选择新建在哪个目录下，如下图所示

当然也可以直接在目录菜单上点击“+”按钮，直接创建数据集

系统进入新增数据集的界面，需要填写数据集基本的信息，对数据集进行设计

①：可以点击“笔”或者直接点击数据集名称输入框，可以填写数据集在菜单栏上显示的名称
②：可以填写数据集的备注描述
③：展示了数据集配置的导航栏的相关配置页面：页面设置、数据设计、执行设置、执行日志、数据权限、消息配置等

数据集的状态管理

数据集的状态是用于控制在数据应用中的可见性，状态为启用时数据集为可用状态。

在启用状态下，数据设计不可修改，通过点击禁用/启用按钮修改状态，当状态为启用的时候，在需要选择数据集的时候，才能看到这个数据集（图表、大屏等）

数据集信息预览

数据信息预览包括数据加工的过程输出的结果等等，如下图所示：

• 数据加工：数据流程式加工的概要预览界面，可以查看到节点与流程的配置
• 基本信息：展示数据集的基本信息，包括名称、修改人、创建时间、执行时间、数据集状态等
• 执行日志：数据集加工的执行日志，包括执行时间、执行的数据量、具体过程的消耗时间等
• 输出结果：详细的中间表
• 血缘视图：数据的来源，数据的使用流向

数据集的设计

点击数据集设计按钮（在禁用的状态下，数据集才能进入设计状态）

进入到数据集的设计界面，其中包括基本信息配置、界面化的数据设计、周期性执行设置等具体对数据集的配置管理

设计器界面介绍

• 基本信息页，主要包含数据集的

• 数据设计页
左上角可以设置数据集名称，左侧是系统提供的多种数据处理节点，主界面为数据配置画布，左侧的数据处理节点可以拖拽至画布，点击节点，下侧弹出对应的节点配置界面，后续章节将详细介绍设计器的具体操作使用方式

①：输入输出的基础算子，用户数据引入数据加工流程和完成后输出标准的数据结果；
②：各种数据加工算子（后续章节将详细介绍）
③：数据加工流程配置的画布，支持拖拽式的算子链接配置
④：算子，点击画布中的算子时，系统将展示算子的配置与预览结果（建模结果）的界面
⑤：建模状态标志，绿色标志标识本节点完成模型构建，红色警示标志表示本环节还未完成建模，需要触发自动建模
⑥：在点击算子后会弹出本界面，界面上包括配置与预览建模结果数据.模拟建模采用任务+流程的思路，每个算子（对数据单一计算处理的方法）提供一些抽象后的基础加工的方式，通过流程连线的方式，将多个算子拼接，实现一系列的对数据加工的过程（建模），并且对该模型任务执行、任务调度进行配置，从而实现自动化的对数据进行抽取、存储、加工的过程。
在配置过程中模拟引入了一部分真实表结构的部分数据，作为加工的模拟数据，通过每一步，系统去构建每个环节的数据模型（类似于零代码开发的模式），无需关注所需要建模的物理表结构，只关注每个环节我们要的业务数据结果，这样大大降低了对操作者的技术门槛，也实现了所见即所得的配置清洗建模的过程
• 执行设置界面
本界面是提供对本数据集完成建模后，周期性或者定时触发完成数据分析结果的构建，如下图所示：

①：前置任务配置，当选择了其他数据集后，系统在执行本数据集时，会先触发前置数据集的执行
②：后置任务配置，当本数据集执行完成时，将触发后置任务，可以选择其他的数据集开始执行。
③：开启定时开关后，系统按照后续的配置可以实现定制周期性的配置
④：录入负责人信息
⑤：录入负责人邮箱信息
⑥：设置定时任务开始时间
⑦：可以设置自定义的corn表达式
⑧：可以快速的设置周期性执行的方式，包括按照小时、天...... 等多种方式周期化执行
• 执行日志
执行日志会记录本数据集执行的历史记录，执行具体的情况，如下图所示

点击详细日志时，系统会把当时执行的具体过程都展示出来
• 权限配置
主要用于对本数据集所涉及的人员进行授权配置，如下图所示，具体的配置介绍查看相关章节。

加工后的结果

通过任务加工后的所得到的数据结果我们称为数据集，数据集是数据加工分析得到的中间结果表，他可以来源于单一数据，也可以来源于多个数据（支持跨库、跨数据类型），通过数据集的配置，从而便捷的实现了联通数据孤岛。下图为数据集的输出结果。

数据集除了输出的结果数据、加工配置的过程，还有任务执行的日志记录与血缘视图，后续相关章节将着重讲解。
在线demo：http://bi.bctools.cn
gitee地址：https://gitee.com/software-minister/jvs-bi

零代码建模：如何通过数仓式存储与流程化加工实现跨数据库的数据整合与分析？

数仓式存储

数据集的创建

数据集的状态管理

数据集信息预览

数据集的设计

设计器界面介绍

加工后的结果

软件部长

引用和评论

JVS低代码逻辑引擎，告别复杂编码！让复杂规则可视化配置

【Hadoop】HDFS架构解析

【Hadoop】HBase系统解析及适用场景

基于 pyflink 的算法工作流设计和改造

通过Milvus内置Sparse-BM25算法进行全文检索并将混合检索应用于RAG系统

ClkLog埋点分析系统-环境部署配置指南

MCP+Hologres+LLM 搭建数据分析 Agent