头图

随着数字化、网络化、智能化的时代发展,企业所面临的数据来源越来越广泛和复杂,包括关系型数据库、非关系型数据库、API接口、传感器数据、社交媒体等。这些数据源产生的数据具有不同的格式、结构和语义,这是多源异构数据源的特点也是数据融合的巨大难点。

图片 1

一、什么是多源异构数据源

多源异构数据源是指来自不同来源、不同格式、不同结构、不同语义描述的数据集合。这些数据源可以是各种类型的数据,如关系型数据库、非关系型数据库、文件系统、API接口、传感器数据、社交媒体等。这些数据源具有不同的数据格式、数据类型和语义描述,因此需要进行特殊的技术处理和整合,才能实现数据的统一管理和分析。简单来说,多源异构数据源就是由多种不同类型、不同结构的数据来源组成的数据集合。

二、多源异构数据源的种类

多源异构数据的种类繁多,特点各异。下面介绍一下多源异构数据的一些常见种类:

1. 数据库数据

如 MySQL、PostgreSQL、Oracle 等,以表格形式存储结构化数据。还有 MongoDB、Cassandra 等,以文档、键值对、列族或图形形式存储半结构化或非结构化数据。

图片 3

2. 文件数据

如 CSV、TXT 这样的文本文件,通常存储结构化或半结构化数据。层次结构的数据格式,适用于存储和交换复杂数据的XML文件。还有JSON 文件这种轻量级的数据交换格式,常用于 Web 应用和 API。

图片 4

3. 多媒体数据

图像:JPEG、PNG 等格式的静态图像数据,通常用于视觉识别和分析。

音频:音频文件(如 MP3、WAV),可用于语音识别、音乐分析等。

视频:视频文件(如 MP4、AVI),可用于视频监控、内容分析等。

图片 5

4. 社交媒体数据

社交网络:来自社交平台的帖子、评论、点赞等信息,具有非结构化特征。

图片 6

5. 爬虫数据

Web 数据:通过网络爬虫技术收集的网站数据,通常是不规则、动态的网页内容。

6. 传感器和物联网数据

传感器数据:从 IoT 设备收集的实时数据,包含多种格式,例如温度、湿度等。

日志数据:来自设备、服务器和应用程序的日志文件,通常用于监控和分析。

7. 企业业务数据

CRM 数据:客户关系管理系统中的客户信息、销售记录等。

ERP 数据:企业资源规划系统中的财务、库存、供应链等数据。

8. 公开数据

开放数据集:政府机构、科研机构等发布的公共数据集,通常为结构化或半结构化。

数据共享平台的数据:一些平台上共享的数据集,涵盖各种领域。

9. 实时数据流

流式数据:实时传输的数据流,例如金融市场数据、在线交易数据等,具有高频更新的特性。

三、多源异构数据源融合

对于多源异构数据源融合的处理通常涉及到数据清洗、转换和整合等多个环节,以应对不同源头数据的格式、结构、语义等方面的差异,最后将其同步到数据库中。

图片 2

这些步骤看起来并不复杂,但由于多源异构数据在格式、结构、语义等方面的差异,导致处理起来相当麻烦。所以使用数据整合和ETL(Extract, Transform, Load)工具处理成了主流选择。

四、使用ETLCloud进行多源数据融合

1.数据源选择

选择需要同步的数据源种类,这里我们使用文本文件,mysql数据表和api返回数据作为数据源来演示。

图片 9

图片 2

2.数据转换和同步

具体流程如下,使用文本文件读取组件,Restful API输入和库表输入组件,完成数据源读取,使用多流union组件合并数据,网关组件控制分支的并行执行,数据清洗转换组件对数据进行处理,最后通过库表输出同步到目标库中。

图片 2

文本文件读取组件配置:

选择要读取的文本文件

图片 10

选择文件内容的解析方式。

图片 11

图片 12

Restful API输入组件配置:

这里主要配置基本属性和输出字段,其他配置可以根据自己的api要求处理。这里没有演示出来的其他配置均为默认配置。

基本配置:主要配置调用的api url以及返回的数据行所在字段和数据格式。

图片 5

输出字段配置:选择需要从api中输出的字段。

图片 8

库表输入组件配置:

基本属性:

配置数据源和需要读取的表book

图片 9

Sql语句配置,从book表中读取70001到80001之间的数据。

图片 10

输入字段配置:

图片 12

多流union合并组件配置:

基本属性,选择三个数据源所在节点

图片 13

合并字段:

图片 14

数据清洗转换组件配置:

基本属性:

图片 20

清洗规则:

选择数据字段id,通过绑定规则对数据进行清洗转换。这对bookmoney,createtime字段分辨绑定了金额转换和时间转换规则。

图片 15

过滤条件:

将bookmoney大于100的数据过滤出来,对这部分的数据进行清洗转换,其他的数据不做处理,依旧输出。

图片 18

库表输出组件配置:

选择需要同步的目标表和表所在的数据源

图片 13

选择输出方式,选择合并后批量。

图片 15

3.流程运行结果

图片 4

结语

多源异构数据源的融合是一个错综复杂的任务,需要系统性的方法和技术。而ETLCloud通过可视化的,明晰的方式,简化了数据清洗、整合、转换和管理流程,有效实现多源异构数据的整合,为更深层次的数据分析和应用提供有力支持。是多源异构数据融合工具的不二选择。


RestCloud
1 声望0 粉丝

应用及数据集成专家,专注应用集成、数据集成、SaaS集成、API生命周期管理等领域