随着互联网以及物联网等技术的不断发展,越来越多的数据被生产出来。基于 IDC 的报告预测,从 2013 年到 2020 年,全球数据量会从 4.4ZB 猛增到 44ZB,而到了 2025 年,全球会有 163ZB 的数据量,这些数据中蕴藏着不可估量的价值,从数据中挖掘价值创造新业务已经成为所有企业的共识。然而,挖掘数据价值第一步,是要先把企业全域数据汇聚起来,让数据真正成为企业的核心资产。于是,企业级数据湖的建设,成为数据价值逐渐释放的关键底座。

最初企业开始自建开源 Hadoop 数据湖架构,原始数据统一存放在 HDFS 系统上,引擎以 Hadoop 和 Spark 开源生态为主,存储和计算一体。这种数据湖架构存在入门门槛高、开发维护困难、稳定性难以保障等明显的缺点。企业急需一套一站式解决所有从数据湖建设到数据湖管理的解决方案。

基于星环 TDC

一站式建湖、入湖、治湖、用湖、管湖

一个完整的数据湖解决方案需要建立在数据接入、数据存储、数据计算、数据应用、数据治理、元数据、数据质量、数据资源目录、数据安全及数据审计等一些列技术之上。市场上的数据湖解决方案多数只具备部分能力,给企业建设数据湖带来障碍。

基于星环科技大数据云平台 Transwarp Data Cloud(TDC)、星环大数据开发工具 Transwarp Data Studio (TDS)等产品的星环数据湖解决方案,能够一站式解决企业从建湖到管湖全部过程,为企业管理和决策提供数据基础与分析能力保障,助力企业发展。

image.png

在数据入湖阶段,星环科技大数据整合工具 Transporter 负责将分散于各个地方、各种平台上的各种格式的数据同步或集成到大数据平台上,通过简洁、统一的可视化界面快速配置数据流转流程,实现异构平台和数据湖之间的数据流转。

数据湖本身是一个中心化的存储,需要存储结构化、半结构化和非结构化数据。星环极速大数据平台 Transwarp Data Hub (TDH ) 内置关系型数据存储引擎、宽表存储引擎、搜索引擎、地理空间存储引擎、图存储引擎、键值存储引擎、事件存储引擎和时序存储引擎8 种独立的存储引擎,支持业界主流的 10 种存储模型。用户还可以根据业务的需要随时增减不同的存储引擎,做到资源按需分配,解决数据湖多模态数据存储。

TDC 数据湖核心组件关系型分析引擎 Inceptor,具有完整的 SQL 支持、超高性能、分布式事务和混合负载支持的强大能力,支持多种数据格式、多种数据加载方式、海量多源异构数据的统一存储和管理;宽表数据库 Hyperbase,面向在线业务的数据库,提供数据的实时增删查改能力,并能确保库内数据的一致性;搜索引擎 Scope 用于构建大数据搜索引擎,支持Word/Excel/PDF/CSV/互联网数据/图片/音影等非结构化数据格式的存储和检索;能够在PB数据量级上实现秒级延迟的搜索功能;提供完整的 SQL 语法支持;实时流计算引擎Slipstream 提供实时计算能力,拥有完整的 SQL 支持,基于事件驱动的计算引擎可将延迟时间缩减到 5 毫秒以内。

在数据安全及数据审计能力上,基于星环科技安全组件 Guardian,TDC 数据湖可为租户提供可靠的认证机制,防范安全漏洞,实现资源管理和行级列级的权限控制,在云环境下保护用户隐私和信息安全。

在数据治理、元数据、数据质量、数据资源目录等能力上,星环科技提供了集开发与治理为一体的一站式工具平台 TDS,提供了数据开发、数据集成、数据管控、数据商城和数据服务等能力。TDS 的子产品涵盖了:面向数据库 SQL 程序开发者的桌面集成开发环境 Waterdrop、网页版的团队协作的 SQL 开发环境 SQLBook、可视化的 ETL 开发工具Transporter、数据计算任务的调度平台 Workflow、数据可视化工具 Pilot 、数据 API 的开发与管理工具 Midgard以及数据资产管理工具软件 Catalog、数据质量管理工具 Governor、数据安全治理工具Transwarp Defensor、数据商城 Transwarp Foresight、数据服务开发工具 Midgard 和标签开发工具 StarViewer。

星环 TDC 数据湖解决方案

在上海市大数据中心的落地实战

基于星环数据云平台 TDC 为上海市大数据中心建设了上海市数据共享交换平台,上海市数据共享交换平台整体上包含市级数据共享交换子系统(含数据交换子系统、数据服务子系统、数据集成子系统等)、市级数据湖、市级数据库、市级数据治理子系统、市级数据质量管理子系统等业务模块。其中:数据交换子系统实现数据交换引擎、统一调度引擎、任务管理、数据桥接等功能;市级数据湖汇聚“四大库”、“市级统建系统”、“各市级委办系统”、“各行政区系统”的经过初始治理的原始数据;数据集成子系统实现对数据湖数据的存储管理、共享与交换,推送数据到治理平台,并建立与市级数据库的连接;数据治理子系统与数据质量管理子系统实现数据元管理与数据质量管理;市级数据库主要用于存放经过一系列清洗、转换、加载、治理步骤后的高质量的政务数据资源,其数据来源主要来自数据湖;数据服务子系统主要提供市级数据库中数据对外的服务发布与利用。

基于星环 TDC 建设的市级数据湖、市级数据库,支撑“一网通办”、“市民主页”、随申码等数据服务。疫情期间,基于TDC一周内上线随申码,日均查询次数峰值达715 w,上线仅四个半月,亮码总次数达到10 亿+。

目前,星环科技新一代智能大数据云平台 Transwarp Data Cloud(TDC)已经在众多行业有成熟的全方位解决方案落地,满足了各种数据处理场景的需求,实现了企业数据与应用的生态化建设。未来星环将在数据云领域持续深耕,助力企业不断提升大数据能力,引领企业数字化转型升级浪潮。


星环科技
4 声望5 粉丝