人工智能 - 产品解读 | 新一代湖仓集存储，多模型统一架构，高效挖掘数据价值 - 个人文章

星环科技TDH一直致力于给用户带来高性能、高可靠的一站式大数据基础平台，满足对海量数据的存储和复杂业务的处理需求。同时在易用性方面持续深耕，降低用户开发和运维成本，让数据处理平民化，助力用户以更便捷、高效的方式去挖掘数据价值。基于这样的宗旨，星环科技TDH正式发布了9.3版本。推出了新一代湖仓集存储格式Holodesk，一份数据满足数据湖的离线实时接入、数仓的复杂加工以及数据集市的分析需求。避免数据冗余，减少数据流转，提升业务综合性能与时效性。同时，分布式计算引擎实现了向量化升级，综合性能大幅度提升。此外，TDH 9.3对多模型统一技术架构进行了迭代升级，全新发布分布式向量数据库Transwarp Hippo。共支持11种模型数据统一存储管理，用统一查询处理语言完成跨模型数据流转与关联分析，让业务开发更加便捷。新一代湖仓集一体架构打破湖仓集边界

传统湖仓集混合架构，需要部署多个平台进行数据存储，造成数据冗余和存储资源浪费。其次，数据需要跨平台ETL流转，流转开销高，时效性较差。数据跨平台流转中还容易导致不⼀致，影响业务正确性。此外，多平台的开发标准不一致，存在一定的技术门槛，权限管理复杂。当需要跨层数据时，严重依赖其他部门的数据⼯程师、数据科学家来加⼯数据，对数据分析师来说，数据分析探索的效率大大降低。

TDH9.3 打破数据湖、数据仓库、数据集市的边界，基于湖仓集一体平台，所有人都可以访问实时的数据、历史的数据、原始的数据、加工过的数据。如业务分析师可以直接访问最原始的数据，数据工程师可以更高效地建模，数据科学家可以横跨不同的数据源进行数据分析和挖掘。

基于TDH9.3湖仓集一体架构，各种类型的数据通过数据集成工具，通过离线或者实时的方式加载到TDH中，结构化数据统⼀由Holodesk来承载湖仓集的存储。通过统⼀SQL引擎和统⼀计算引擎，实现湖仓集数据的统⼀处理、查询、加工，支撑多种应⽤场景。配合统⼀的运维、审计、权限、告警等功能实现平台的统⼀管理，避免重复建设。

一种存储格式，满足湖仓集关系型数据存储需求TDH 9.3将之前的⾼性能存储格式Holodesk进行了重构，只需一个存储格式即可同时满足湖仓集的数据接入、数仓加工和高性能数据分析。在全新的存储引擎下，可以将湖仓集的所有数据都放在统一的存储格式里，不需要针对不同的建设去使用不同的存储引擎。能够同时⽀持离线批量数据和实时数据的接入，同时也支持高性能的模型加工、批处理、在线分析等计算需求。

相比ORC，更多功能、更高性能相比于之前版本的ORC事务表，TDH9.3的Holodesk具有更多的功能和更高的性能。无需手工分桶：ORC事务表需要手动分桶，对开发和运维人员是非常大的挑战。TDH9.3 Holodesk不需要手动分桶，存储引擎自动做数据切片和分布式，用户无需关注分桶数，大幅简化了建表流程和成本。非分桶文件自动合并：Holodesk具有更灵活，更多策略的文件管理系统，自动将任意的非分桶文件按照合适的大小进行合并，避免桶文件过大或过小的情况，减少运维上的投入。高频实时数据写入：实时场景下，Holodesk支持实时流计算引擎Slipstream的实时数据写入和Batch Insert批量写入，满足数据湖的实时数据接入需求。性能数倍提升：Holodesk的IO性能是ORC事务表的10倍以上，在TPC-DS 1TB数据集测试中，相⽐于ORC事务表，TDH 9.3 Holodesk的性能提升了3倍。相比开源湖仓，创新技术降本增效相比于开源湖仓技术，如Hudi / Iceberg等，TDH湖仓集一体在多项技术方面实现了提升和创新，帮助用户降低开发运维成本，提高开发分析效率，提升数据处理分析性能。四种事务隔离级别：开源湖仓技术一般是基于快照的事务隔离，而TDH支持完整四种事务隔离级别，特别是在复杂的高并发比数仓业务场景下，用户可以根据业务需求调整事务隔离级别，满足不同事务处理的要求。小文件灵活、自动合并：开源湖仓技术小文件需要手工合并管理，需要通过代码来调⽤，维护成本较⾼。TDH具备灵活的多策略、独⽴资源来自动合并小文件，维护成本更低，读取性能更好。实时数据快速读写：开源湖仓技术的实时数据写入基于Merge on Read，虽然写得快，但读起来很慢。TDH9.3优化了实时数据写入的合并逻辑，避免大量文件在读时再合并，实现写快读快，具有更好的分析和加工性能。无需流转，湖仓集一体化存储：开源湖仓技术在集市分析场景下需要流转到外部分析引擎中，而基于TDH9.3的湖仓集一体架构，实现了湖仓集统一存储格式，数据⼀体化存储不冗余，也无额外数据流转开销，整体系统复杂度更低，综合时效性和性能更强。向量化计算引擎升级，引入CodeGen技术TDH9.3在存储升级的同时，向量化计算引擎引入了CodeGen代码生成技术，将复杂的、高开销的算⼦代码⽣成为能更⾼效调⽤GPU指令集的Native Code。生成的Native Code逻辑更简单。避免了多余的运算和函数调⽤，运⾏更⾼效，同时Native引擎也不会GC（垃圾回收），避免因GC导致性能降低。综合性能大幅提升，再破TPC性能巅峰TDH是全球首个通过TPC-DS基准测试并经官方审计的产品，此次存储和计算引擎的双重升级，在TPC标准测试集中，TDH再⼀次突破了TPC-DS、TPC-BB、TPCx-HS 3个测试集的性能。在TPC-DS 10TB测试集中，TDH⽐当前公开的最好成绩，性能提升了27%。在TPC-BB 3T测试集中，TDH是当前公开的最好成绩的2倍，同时系统成本降低了67%。在TPC-HS 3T测试集中，TDH比当前公开的最好成绩，性能提升3%，同时系统成本降低了69%。此外，经过很多实际业务的验证，通过将CDH业务迁到TDH上，简单的业务加工性能是CDH的1.26倍，复杂业务加工是2.69倍，并发跑批是2倍，业务查询是1.66倍。而在替换开源数据库GP后，TDH在复杂分析上基本上能实现4-9倍的性能提升。多模型融合加速业务创新

随着业务的复杂化和多样化，企业需要存储和处理不同模型的数据，比如图数据、时序数据、时空数据等。TDH在2020年正式发布多模型数据统一处理技术后，每年都会发布新的模型，来满足不同业务场景和不同分析的需求。多模型能力升级，全新发布分布式向量数据库Transwarp HippoTDH9.3在原多模型能力基础上新增分布式数据库Transwarp Hippo，实现10种存储引擎支持11种数据模型。同时对原存储引擎进行升级，提供更高的性能和更强的功能，帮助企业用户满足更多以及要求更高的业务场景。作为一款企业级云原生分布式向量数据库，星环Hippo支持存储、索引以及管理海量的向量式数据集，高效地解决向量相似度检索、高密度向量聚类等问题。与开源的向量数据库不同，Hippo具备高可用、高性能、易拓展等特点，支持多种向量搜索索引，支持数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能，能很好地满足海量向量数据的高实时性查询、检索、召回等场景。在大模型场景中，通过预处理将各种类型的文档、图片、音视频等非结构化数据转化为多维向量数据存储在Hippo中，可以很好地解决大模型无法内置快速变化的信息，输入能力受限等问题。通过将Hippo和星环分布式图数据库StellarDB、大模型结合，可以构建业务域知识图谱和业务系统的应用服务，进一步提高人机交互的效率，提供更灵活的组合业务服务，激发出更精准更深入的业务场景应用。多模型统一技术架构如上述所说，不同的数据模型往往需要独立的平台来处理，而这些不同的产品在接口标准上不一致，开发者和业务分析人员需要掌握不同的语言去访问、使用、操作这些数据。同样，这些产品也使用了各自独立的计算引擎和存储，数据存储在各自的生态中难以互通。在业务上如果涉及到了跨模型的混合业务，需要把数据从一个平台导入到另一个平台中，ETL流转效率低，同时也难以保证数据的准确性、一致性和实效性。TDH在2020年5月就实现多模型数据的统一处理技术，支持同一平台一站式处理多种不同的数据模型。在TDH多模型的统一架构下，实现系统架构的四层统一。底层基于容器化技术实现资源的统一调度管理，保障资源隔离互不影响。通过分布式存储管理系统实现了多种模型数据的统一存储管理，统一的计算引擎自动匹配算法以提升不同数据模型的处理能力。上层通过统一的数据操作/语言来统一处理不同业务的请求。用户只需一个SQL就可以实现不同数据模型的操作和查询，模型转化流转以及跨模型关联分析，大大简化了开发复杂度，简化用户操作。同时数据也仍保留在原存储引擎中，也不用对数据进行导入导出或者转换，不会存在数据不一致或数据冗余存储的问题，具有复杂度低、开发成本低、运维成本低、数据处理效率高等优点。

跨模型关联分析基于TDH多模型统一技术架构，用户不需要独立建设不同的数据库分开运维管理，在做数据分析时也不需要单独连接不同数据库，开发不同的脚本。而是基于统⼀数据管理映射为不同的表，并且针对不同模型的特性，实现模型特有的语法。如图数据检索语法，⽂本搜索语法来满⾜不同模型的处理需求，通过统⼀的计算引擎将多种模型的处理和关联统一处理。工业时序设备监控与分析（时序数据+关系型数据）工业IoT设备实时产生大量的时序数据，对于这类数据具有数据量大、生成频率高等特点，要求存储模型有较⾼的压缩率和实时写⼊能⼒，通常企业会使用专门的时序模型。在设备监测和分析时，除了时序数据外，⽤户往往需要结合设备的⼀些其他信息。例如设备来源、故障记录、保养记录来综合分析设备的运⾏状况，这些数据通常存储在关系型数据库中，因此需要时序数据和关系型数据关联分析的能⼒。

航空数据分析（时空数据+关系型数据）航空数据分析场景中，航空轨迹数据⼀般包含了⼤量的坐标点位信息，通常存储在时空模型中。在航空轨迹分析中，除了时空数据外，往往也需要结合航班的其他信息例如起降时间、机场信息等存储在关系型数据库中的数据进⾏综合的分析。

基于TDH多模型统⼀技术，用户只需一句SQL就可以将多种模型数据直接关联分析，大幅降低了开发的复杂度，避免了复杂的数据流转，提升了分析效率。融合开放国产化替代平滑升级

TDH是星环科技自主研发的大数据基础平台，根据工信部电子第五研究所代码扫描测试报告，TDH 的1200万行代码里自研代码率超过70%。区别于开源及封装产品，不能自主可控，很多组件受美国法律限制，不能规避“被制裁”风险。部分产品有license风险，如ES已经改开源license策略了，后续商用存在一定的风险。在兼容性方面，TDH基础存储和计算组件兼容CDH/HDP，迁移成本低，同时提供迁移工具，帮助用户将原系统里的数据迁移到TDH，并可以进行自动数据校验，保证整个流程平滑、安全进行。此外，在CDH等国外产品迁移方面，TDH具有大量成功实践，不存在迁移风险。融合开放，平滑迁移对于SQL类业务，TDH9.3持续优化SQL兼容性，在Oralce、TD、DB2、Hive语法上，保证SQL的平滑迁移。对于API对接开发类业务，TDH完成了与ES、Spark、Flink等的适配，保障这类应⽤平滑迁移。同时，TDH也提供与之对应的自研产品，提供更先进的技术架构、更高的性能、更好的稳定性以及易用性等。

在⼯具方面，TDH不仅与如Sqoop、Flume、Logstash等做了适配，并能提供全套的工具组件。如SQL开发工具、轻量级ETL工具、数据调度工作流工具、图形化数据建模工具、交互式分析与Cube设计工具、元数据管理工具、可视化报表、大数据治理工具、灾备工具等大量易用性工具。

结构化数据自动归档在实际迁移中，很多用户会继续使⽤开源数据格式。比如ORC、Text，但这些开源格式不具备事务能⼒，无法进⾏小文件合并，需要⽤户根据文件大小，重新建表导数，在表多、数据量⼤的情况下，性能开销较大，严重的会影响业务的正常进行。TDH 9.3新增了结构化数据自动归档能力，能够支持并自动合并开源的ORC、Text，降低了用户在开源⾮事务格式上的小文件运维成本。合并过程中，计算资源独立，对业务透明无影响，并且可以灵活配置合并策略，配合监控功能可以完整监控小文件合并过程和状态。国产化生态适配，针对性优化性能提升TDH已完成与主流信创生态厂商的适配互认工作，适配长城飞腾、华为泰山、浪潮等服务器，鲲鹏、飞腾CPU，麒麟、统信等操作系统。同时同一集群可支持基于ARM与X86服务器混合部署并有落地案例，最大化利用硬件资源，让用户实现逐步替换。在性能上，TDH根据不同硬件和场景进⾏相应的优化，充分发挥国产ARM架构多核CPU的优势，部分场景下性能与X86架构相当。以上就是星环科技大数据基础平台TDH 9.3，帮助企业简化系统复杂度，降低运维成本，让⼤数据开发者更⾼效地进行数据价值挖掘