引言

2024年11月8日,由 DOIT 传媒主办,中国计算机学会信息存储专委会、武汉光电国家研究中心和百易存储研究院支持的“2024中国数据与存储峰会”在北京召开。本次峰会以“智数据 · AI 未来”为主题,汇聚了全球领先的数据存储企业代表、专家学者及行业用户,共同探讨了数据存储领域的最新技术进展、市场趋势和应用案例。

在峰会发布的“2024存储风云榜”中,腾讯云数据加速器 GooseFS 荣膺“2024年度分布式存储产品金奖”。“2024存储风云榜”展示了数据存储领域的创新成果,引领下一代技术的突破与落地,为行业选型和应用提供了重要参考,同时也激励更多企业持续创新。
图片

Date Platform:探索智能存储之未来之旅

腾讯云存储专家解决方案架构师王登宇应邀出席本次峰会,并在“ AI + 存储协同发展论坛”中发表了题为“腾讯云 Data Platform:探索智能存储之未来之旅”的演讲。本次演讲聚焦腾讯云数据平台如何突破传统存储的边界,通过整合 COS 对象存储、MetaInsight 智能检索、Data Engine 数据处理引擎和 GooseFS 数据加速器系统,构建全面的 AI 存储解决方案,优化大数据和 AI 业务中的数据管理,提升计算效率,为各类智能应用的持续发展提供坚实支撑。
图片

掌控智能时代的数据存储挑战

云存储的演进历程始终伴随业务需求的变化:从早期的内容分发需求推动对象存储的快速发展,到大数据业务场景下的数据湖和湖仓一体化方案,再到最近的 AIGC 业务场景,存储方案面临着低成本存储、数据管理和处理能力以及更高的存储性能需求。这些都推动了云存储技术的不断演进。

在这一背景下,腾讯云存储推出了 Data Platform 解决方案。Data Platform 包含四个核心产品:COS 对象存储提供数据存储功能;MetaInsight 实现数据智能检索和数据目录功能;Data Engine 提供高效的数据处理能力;而 GooseFS 负责数据加速,从而形成完整的一体化存储解决方案。
图片

从存储到数据平台,Date Platform 助力企业跨越数据挑战

Data Platform 方案从业务需求出发,提供一体化服务:通过 S3/COS 接口满足数据湖、数据仓库等业务场景中的数据存储需求;MetaInsight 提供的元数据和语义检索接口让海量数据具备了更强的可管理性;Data Engine 通过靠近存储端的数据处理能力提升了数据挖掘效率,降低了数据处理成本;GooseFS 数据加速服务作为全闪存高性能文件缓存系统,支持 HDFS 和 POSIX 接口,为大数据和 AI 场景优化近计算端的 IO 访问效率。

在海量数据存储需求之下,对象存储 COS 作为 Data Platform 的存储底座,采用腾讯云自研的 Yotta 架构,单集群规模可达100 EB,支持多种存储类型和管理功能,为企业提供高可靠性、低成本的海量数据存储服务,帮助企业应对 AI 数据的存储需求。随着众多企业对 AI 业务的投入,当算力和模型规模达到一定阶段后,模型的能力往往取决于数据的数量和质量,COS 的高可靠性和可用性、低成本、成为了企业海量数据存储的首选。

图片

Date Platform 双引擎:智能数据管理与处理

为解决海量数据存储后的高效管理和处理需求,腾讯云通过 MetaInsight 和 Data Engine 构建了 Data Platform 的双引擎。非结构化数据在存入 COS 对象存储后,通过 MetaInsight 提取元数据和向量特征实现结构化管理,并提供查询检索 API;Data Engine 在查询 MetaInsight 的数据后可以进一步处理数据集,从而形成数据存储、数据管理和数据处理的闭环。通过 COS 的事件触发机制(event trigger),数据上传后可自动完成上述所有处理流程,降低数据智能化应用的门槛。
图片

数据万象 Date Engine 数据处理引擎:释放海量数据处理能力

腾讯云的数据处理引擎(Data Engine)内置了超过百种强大处理能力,涵盖内容审核、图片处理、视频处理、音频处理、文档服务、文件处理等多个领域。结合腾讯自研的 AI 技术,Data Engine 能够对图片、视频和音频进行智能化处理,完成更多复杂且定制化的数据处理任务。这些处理能力能够通过数据工作流进行自动化编排,支持批量化处理海量数据,极大提升工作效率。无论是业务需求的高效执行,还是大规模数据处理的优化,Data Engine 都能够为客户提供灵活且高效的解决方案。
图片

数据万象 Metalnsight:提升多模态数据检索效率

近期,腾讯云发布了 MetaInsight,这一创新工具旨在提升多模态数据的检索效率。基于AI大模型和向量数据库,MetaInsight 为用户提供跨模态的数据检索能力,能够高效地挖掘多种类型数据中的深层价值。MetaInsight 的核心定位是作为 COS 对象存储的 Data Catalog,针对 COS 存储中的数据提供多场景、多模态的检索服务。它通过自然语言处理或结构化检索条件分析存储的数据,满足数据管理、分析、检索等全方位需求。

当前,MetaInsight 支持两个维度的结构化数据:一是文件的 Metadata,用于支持文件的聚合统计查询;二是 Embedding 特征,主要用于图像内容检索。这些结构化数据的组合形成了 COS 的 Data Catalog,极大提高了数据的可管理性和查询效率。
图片

数据加速器 GooseFS:提升数据清洗与训练效率

在数据清洗和训练过程中,数据加速器 GooseFS 通过将数据智能分布至内存、计算节点本地盘或全闪存缓存等不同层级中,提供亚毫秒级访问时延、百万级 IOPS 和 Tbps 级别吞吐量,大幅提升数据清洗效率。这一加速方案已在自动驾驶、大模型等多个 AI 场景下落地,帮助企业降本增效。
图片

典型案例:数据智能的高效应用

MetaInsight 与 GooseFS 的协同,让数据更智能、高效地计算

通过 MetaInsight(语义检索或元数据查询),从 COS Data Store 中提取所需数据,并缓存至 GooseFS。GooseFS 通过 POSIX/HDFS 接口将数据高效投递至计算节点,实现更高效的计算操作。 
图片

Data Engine 结合 MetaInsight,自动识别标签,高效管理数据

Data Engine 的智能处理通过大模型自动识别数据内容,并对数据进行定制化标注。识别的标签可写入 MetaInsight 建立索引,后续可通过元数据查询快速检索对应数据集,提升数据的管理效率。
图片

结束语:重塑 AI + 存储数据平台,释放智能存储的潜能

腾讯云 Data Platform 基于智能数据治理和灵活存储管理,为 AI 和大数据应用注入新动能。平台提供统一的存储空间,有效整合结构化、半结构化和非结构化数据,简化管理流程。通过极致的数据访问性能,它支持大规模数据的高吞吐量和低延迟访问,确保实时的数据处理和分析能力。创新的 Yotta 架构技术不仅降低了存储成本,还优化了存储效率。平台灵活的资源配置功能使企业能够按需扩展存储资源,实现存储和数据处理的灵活调度。同时,智能化的数据治理大幅简化了数据管理流程,进一步提升了整体数据管理的效率。
图片

通过这一先进的解决方案,腾讯云 Data Platform 正助力企业高效释放数据价值,迎接智能存储的未来。


云存储小天使
13 声望2 粉丝

为大家分享更多的云存储技术实战内容!