CDH/HDP迁移之路

星环科技

哪些用户需要迁移

原社区版用户

  • 社区版不再更新

Cloudera(Cloudera 和Hortonworks 合并后)所有产品不再提供社区版,用户无法获取新的功能。

  • 社区版不再免费

2021年1月31日开始,所有Cloudera软件都需要有效的订阅,且订阅费昂贵(50个节点,一年订阅费50万美元)。

原企业版用户

  • 企业版不再更新

Cloudera 和Hortonworks 合并后推出了新一代大数据平台 CDP,CDH 6和HDP 3将是CDH和HDP的最后企业版本,用户无法继续获取新的功能和性能提升。

  • 企业版不再服务

至2022年3月份,CDH/HDP全部EoS,用户没办法获取售后支持:

来源:cloudera官网

迁移方向

方向一:CDP

CDP是 Cloudera 和Hortonworks 合并后发布的新产品,融合原来CDH和HDP能力并增加了一些新功能和BugFix,支持云部署等能力。

虽然CDP提供了一些新能力,也将继续更新并提供支持,但外国的软件无法适配国产软硬件生态(国产芯片、操作系统、服务器、中间件),技术方向不能自主可控,许可证也受外国法律限制,近期俄罗斯事件将这方面风险彻底暴露:

  • Oracle宣布暂停在俄业务

3月3日,Oracle发推文称:“为了Oracle在全球各地的150000名员工的利益,为了支持乌克兰民选政府和乌克兰人民,Oracle公司已经暂停了在俄罗斯联邦的所有业务。

  • 众多科技公司断供俄罗斯

a. 谷歌宣布 Google Pay 在俄罗斯无限期暂停使用;b. 苹果公司除了宣布在俄罗斯停用 Apple Pay 以外,也在俄罗斯境内停止所有产品的销售c. 英特尔、戴尔、AMD 宣布向俄罗斯断供芯片

d. ……

  • 下一个或是GitHub?

外媒消息称,全球第一代代码托管平台GitHub 正在考虑限制俄罗斯开发人员使用开源软件。尽管此类软件的使用是免费的,但它的许可协议仍然存在诸多限制,包括禁止受制裁的国家使用原本对公众免费开放的代码。

方向二:国内封装的Hadoop商业版

对开源组件进行封装,安装部署运维方面有一些增强。

但是不可避免的,封装开源组件始终是受制于国外法律与国际形势,风险与方向一迁移到CDP相当。

同时,对开源组件进行封装的厂商无法获取最新的源代码。另外,很多人认为有源代码就可以自主可控,实际代码只是一个技术的载体,仅仅拥有源代码并不代表拥有核心技术,数千万行代码里扫清有意无意的漏洞根本不现实,拥抱开源的同时也一定拥抱了风险。

随着美国公司Cloudera不再更新社区版,这一类产品将无法获得能力更新,除非也升级到CDP,完全走向方向一。

方向三:国内自主研发大数据产品TDH

Transwarp Data Hub(TDH)是星环科技自主研发的企业级一站式多模型大数据基础平台,采用领先的多模型技术架构,8种存储引擎支持10种数据模型,成套的工具组件让系统的安装部署、扩容升级、安全防卫、风险告警、权限管理等工作变得更便捷。在技术领先性、性能、易用性、安全性、国产化生态兼容性,以及售后服务等诸多方面具有优势。同时,国产自主研发的TDH对国产化生态具有高度兼容性,满足信创验收要求。

迁移到不同平台后获得的能力

迁移到国产自主研发大数据产品TDH

  • 如果你关注功能

TDH的多模架构,支持关系表、文本、时空地理、图数据、文档、时序等在内的10种数据模型;离线数据批处理、高并发的在线数据服务、数据集市、数据仓库、数据湖、图存储分析、空间数据存储、实时数据处理、数据中台、数据治理等各类大数据业务场景一站解决。

  • 如果你关注性能

TDH自研高性能分布式计算和存储引擎,整体性能是CDP的 5~25倍。

  • 如果你关注开发

TDH完整支持SQL2003标准,支持PLSQL存储过程,兼容Oracle、DB2、Teradata等方言,无需每个场景一套接口。

  • 如果你关注运维

TDH提供开箱即用的可视化运维监控、安全管控工具,容器技术带来极致的安装、升级、补丁体验。

  • 如果你关注售后

TDH原厂超过1100人研发与支持团队和超过3万名星环科技认证的大数据工程师,专业性更强,售后无忧。

  • 如果你关注架构

TDH提供统一SQL引擎、统一计算引擎、统一分布式存储管理、统一资源调度、统一内联架构高效搞定湖仓集一体、HTAP等复杂场景,无需平凑组件散装架构。

  • 如果你关注安全

TDH提供的容器隔离、灾备、访问控制、联邦学习、隐私保护、可信计算等技术保障网络层、加固层、治理层、流通层全方位数据安全。

  • 如果你关注国产化

TDH完全自研,通过工信部代码自主研发率扫描测试。同时TDH完成了与主流信创生态厂商的适配互认工作,满足信创验收要求。

迁移到CDP

迁移方向的对比分析

以下分别从兼容性、技术领先性、性能、易用性、稳定性、灾备与可靠性、安全性、自主可控、国产生态、解决方案、售后服务等多方面对比各迁移方向,供用户参考。

兼容性

兼容性,直接决定迁移成本。很多客户认为CDP是CDH/HDP的高版本,应可以平滑升级,基于开源整合的产品,也可以平滑升级,而TDH是国内自主研发的大数据产品,兼容性不好,升级成本高,其实不然。

  • CDP

1) CDH 5升级CDP有严重组件版本兼容性问题, 包括 sentry 换成ranger,Hive2 升级到 Hive3,升级对组件的兼容性影响大;2) 例如:某客户CDH5升级到CDP的升级时间长达数月之久。

  • 开源封装产品

1) 基础存储和计算组件同样有兼容性问题;2) CDH安全、运维管理等不开源组件和功能无法升级,且目前没有很好解决方案。

  • 星环科技TDH

1) TDH基础存储和计算组件兼容CDH/HDP,迁移成本低;2) TDH提供迁移工具,数据一键迁移;3) 大量迁移成功案例,不存在迁移风险。技术领先性

TDH产品技术始终领先于同类型产品2~3年,在大数据技术领域较早实现多项技术突破,例如2015年TDH4.0就完整支持分布式事务,同类型如Hive在多年后任然不能很好支持;2016年发布的TDH5.0推出新一代资源管理与调度技术,将容器技术和大数据技术有效结合,提供有效的资源隔离技术同时带来极致的安装和升级体验,Cloudera 2020年也计划相关产品使用这一解决方案;2020年TDH 7.0推出了创新的多模技术架构,实现了通过统一SQL引擎对关系型、文本、图数据、时空、时序等数据模型进行操作,在行业内处于先进水平。

星环科技TDH多模型数据管理平台技术架构图

星环科技长期在大数据基础软件研发与产品化过程中自主研发形成了一系列先进的核心技术,这支撑了TDH产品的先进性,也在金融、政府、能源、交通、制造业等国民经济重点领域中得到广泛应用。随着公司研发投入大幅提升,未来星环TDH将持续保持技术领先的优势。

性能提升

  • TDH(Inceptor)整体性能是CDP(Hive on Tez)的5X

Inceptor 是星环科技自主研发的关系型分析引擎,基于TPCDS 1TB的数据规模,同等配置下(4X10cores)TDH(Inceptor)和CDP(Hive on Tez)进行性能对比,复杂场景有7~25X性能提升。

  • TDH(Hyperbase)性能优于CDP(Hbase)

Hyperbase是星环科技自主研发的NoSQL宽表数据库,基于1000W条的数据集,TDH(Hyperbase)性能优于CDP(Hbase)。

  • TDH(ArgoDB)性能是CDP(Impala)的2~6X

ArgoDB是星环科技自主研发的分布式关系型数据库,基于TPCDS 1TB的数据规模,同等配置下(4X10cores)TDH(ArgoDB)和CDP(Impala)进行Ad Hoc查询性能对比情况,具体性能对比如图所示:

基于TPC-H 1TB的数据规模,同等配置下,基于不同的查询分析场景下,TDH(ArgoDB)性能是CDP(Impala)的2~6X。

  • TDH(Slipstream) 优于CDP(Flink)

Slipstream是星环科技自主研发的实时流计算引擎,在多场景上性能整体优于CDP(Flink)。

  • TDH(Scope) 优于Elastic Search

星环科技全文搜索引擎 Scope吞吐量测试性能上优于ES。

易用性

  • 统一计算引擎

CDP/开源封装产品使用一系列孤立的SQL 引擎, 如Apache SparkSQL、Apache Hive、Phoenix(SQL on HBase)、Cloudera Impala等。每个SQL 引擎都有各自的局限性,使得用户难于学习掌握,开发使用、应用对接、实际落地、事后运维方面成本高。

星环科技TDH采用自研统一计算引擎,提供统一SQL接口处理,支持SQL 2003标准与存储过程,并且支持Oracle/DB2/Teradata 等SQL 方言。

此外,统一引擎另一个好处是,各类存储的数据可以在一个作业(如一个SQL语句)中,被抽取到统一引擎中进行分布式计算,而无需开发人员自己写分布式代码,从各个引擎中读取数据再加工。整个易用性、开发效率和运行效率都提高很多。

图片

  • 一体多模架构

TDH的多模型支持特性可轻松胜任复杂场景。通过8种独立的存储引擎,支持业界主流的10种存储模型:关系型数据存储、宽表存储、搜索引擎、地理空间 存储、图存储、键值存储、事件存储、时序存储、文本存储、对象存储。在一个数据库中同时支持多种数据模型(例如关系表、文本和图片),可以避免分库分表,简化了应用的设计,支持直接高速存储、检索和统计多模型的数据。

CDP/开源封装产品通过多个互相独立的组件提供相应的能力,复杂场景需要多个组件+数据冗余完成,中间的开发和运维十分不便。

  • 全套工具集

TDH提供SQL开发工具、轻量级ETL工具、数据调度工作流工具、图形化数据建模工具、交互式分析与Cube设计工具、元数据管理工具、可视化报表、大数据治理工具、灾备工具等大量易用性工具。

稳定性

  • 计算引擎

星环科技TDH自研的计算引擎Quark拥有:1) 分布式调度算法Furion Scheduler,支持task级别调度能力,相比CDP/开源封装产品Task set级别调度,在业务混合负载并发高效果和稳定性更好,不会出现一个大任务占满资源把引擎跑崩,集群规模大情况下表现尤为明显;2) Shuffle过程内存控制技术,当数据量超过一定阀值时中间结果会spill到磁盘,不会出现OOM情况;3) 聚合采样技术,当聚合率不高或者占用内存太多时,会放弃预聚合,直接shuffle,来保证引擎稳定性;4) Server级别HA,不存在server 单点故障;5) Task重试机制,task级别重试使得大任务重试代价小,不会出现一个大任务不断重试把引擎跑崩情况;6) 计算引擎保护机制,在特别情况如误提交超大表笛卡尔积计算任务,引擎会直接拒绝执行SQL,进一步保护计算引擎,保证稳定性;7) 分布式Checkpoint容错机制,相比ACK机制,效率和稳定性更优。

  • 存储引擎

星环科技TDH在存储层面具备:1) 小文件自动合并技术,同等数据量情况下,文件数远少于CDP/开源封装产品,大数据量情况下稳定性高;2) 堆外内存技术,单机容量得到提升,同时避免full GC导致的集群稳定性问题,如Scope稳定运行单机容量可达50TB,而CDP/开源ES上限只有10TB;3) 分布式Raft协议,支持集群规模更大更稳定,如ArgoDB可稳定支持2000+节点集群,可以根据企业需求线性扩容,支持PB级数据存储;而CDP(Kudu)单集群最大规模不超过100个存储节点,单节点超过8T存储就会不稳定;除此之外,自研的读写分离技术、索引技术、坏盘处理技术等,配合全流程监控告警能力, 让TDH支持系统7*24小时稳定运行。

这些能力是CDP/开源封装产品不具备的,因而在文件数多、数据量大、任务并发高、集群规模大的情况下,TDH整体稳定性远超CDP/开源封装产品。

灾备与可靠性

TDH有数据同步备份工具,原厂级组件支持,基于数据块级别复制数据备份效率高、代价低,支持热备、温备、冷备等多种数据备份模式,支持全量备份/全量同步/增量同步,开放接口供其他工具或应用调用,具有全流程可视化界面。

CDP/开源封装产品目前主要还是依赖多副本机制保障集群内数据可靠性,异地容灾没有高效方案,只能做到HDFS的数据拷贝,效率低、代价大。安全性

星环科技TDH提供了大数据安全合规能力,在企业构建大数据能力的同时,确保数据业务的安全合规。平台基于敏感识别与分类分级,帮助企业实现大数据资产的分类管理,分级保护。支持多种数据安全防护能力,包括静态脱敏、动态脱敏、数据水印,加强了数据业务事中控制能力。平台还支持以数据为中心的监测与审计能力,能识别敏感数据操作并进行用户实体行为分析,能及时进行告警,提供事后可查溯源的能力。

CDP/开源封装产品不具备这些能力。自主研发

自主可控方面TDH有绝对优势,TDH产品通过工信部自主代码扫描测试。

CDP完全是国外软件,不可控,国产软硬支持不好。

开源封装产品依赖开源,不能自主可控,很多组件受美国法律限制,不能规避“被制裁”风险。部分产品有license风险,如ES已经改开源license策略了,后续商用存在一定的风险。国产生态

星环科技TDH已完成与主流信创生态厂商的适配互认工作,适配长城飞腾、华为泰山、浪潮等服务器,鲲鹏、飞腾CPU,麒麟、统信等OS,并有官方认证,支持基于ARM与X86服务器服务器混合部署并有落地案例,满足信创验收要求。CDP在国产化服务器、CPU、GPU资源池化、操作系统等方面支持能力不足,无法很好地满足国产生态。

在国产生态方面,TDH已经有非常多落地案例,并且性能提升明显。在不同指令集的CPU架构均表现出优异的性能,如ARM(鲲鹏)和X86(海光)在CPU密集型计算和IO密集型计算上性能提升显著。

解决方案

星环科技TDH统一内联大数据底座优于CDP/开源封装产品的散装数据底座。

CDP/开源封装产品,每个场景需要一个组件独立交付,开发语言和接口基本完全不同,客户新业务开发、业务需求变更成本极高。

售后服务

TDH的产品提供方星环科技是国内厂商,具有非常强大的研发、技术支持与服务能力,可以快速响应客户定制化需求,提供强大的原厂售后服务保障能力。CDP的产品提供方Cloudera依靠国内代理商提供销售并提供实施、运维服务;Cloudera在国内主要是运维人员,没有原厂技术研发人员,很难保障SLA。由于支持不到位,很多国内CDH企业版客户已经购买了或者希望购买星环科技技术人员提供技术保障。

某开源封装产品对营运商客户采用直销方式,其他客户一律采用渠道销售方式,大部分行业原厂售后服务保障能力较低。其产品核心研发团队较少,大部分技术人员在处理各类开源技术Bug及客户问题远程技术支持,专业性不足。

迁移案例

某通信集团

该集团核心业务系统存量数据10PB级别,每日增量数TB,批处理作业数千个,数据量大,业务价值高。

原有系统使用CDH+Oracle混合架构,CDH 有近200节点,主要承担数据批处理加工,Oracle对接上层应用,CDH散装架构和CDH+Oracle混合架构带给客户巨大的开发运维成本,同时批处理性能、稳定性和安全性也无法满足客户数据增长需求。

最终星环科技在项目一期用TDH成功迁移了客户CDH+Oracle混合架构的数据平台,“一个顶两”,并且数据稽核、联邦计算、资源调度、安全性、高可用、易用性等关键能力得到增强,真正实现“降本增效”。

迁移全程用时6个月不到,充分体现了TDH对CDH的兼容性,以及Oracle方言和存储过程支持能力。

随着一些新应用上线,目前TDH集群生产环境扩容至近200个节点,直接对接经营分析、计费、客服、账务、结算等系统。某航空公司

该航空公司原来使用HDP+Oracle混合架构建设企业数据平台,涉及流处理、批处理、高并发查询等技术场景。

客户部署了几十个节点的HDP集群,但是散装架构带给客户巨大的开发运维成本,同时性能、实时性和稳定性也无法满足客户需求。

最终星环科技一期项目用TDH成功迁移了客户HDP集群,由于TDH对HDP的兼容性高,全部数据+业务迁移不到5个月时间(包含1个月并行运行测试)。

当前TDH集群近百个节点,TDH极好的SQL和Oracle方言支持让客户上线了很多新应用。

阅读 548

1 声望
2 粉丝
0 条评论
1 声望
2 粉丝
文章目录
宣传栏