导语

近年来,随着大数据的快速发展,企业对数据存储和计算的需求日益增长。然而,随着数据量的爆炸式增长,传统数据仓库架构面临着高昂的运维和扩展成本。许多公司发现,当数据规模达到一定程度时,存储、计算和网络开销会显著增加,从而导致运营成本成倍上升。

在这个背景下,Databend 的出现提供了一种全新的解决方案。许多用户在了解了 Databend 的技术案例后,都对其显著的成本降低能力感到惊讶,甚至有人问:“你们真的能让成本降低 80% 甚至 90% 吗?这不是夸大其词吗?”事实上,这些数据并非虚夸,而是源于 Databend 的核心技术架构和设计理念。

Databend 的使命是通过新的技术架构,帮助用户显著降低在大数据分析和处理过程中的成本。这其中最关键的三大技术法宝是:存算分离架构、基于对象存储设计,以及高效的数据压缩策略。下面我们逐一深入分析这些技术如何为用户节省大笔开支。

存算分离架构

存算分离是云计算领域近年来广受欢迎的一种架构设计,它将数据的存储和计算资源解耦。这意味着存储和计算可以独立扩展和部署,从而避免了传统架构下两者紧耦合带来的资源浪费。

在传统的数据仓库架构中,存储和计算资源是紧密绑定的。当数据量增大时,用户不仅需要增加存储容量,还需要相应地扩展计算资源。即使一些计算资源可能在某些场景下不完全使用,但由于存储扩展的需求,用户仍需要为这些计算资源付费,这无疑增加了运营成本。

Databend 通过存算分离架构解决了这一痛点。在 Databend 中,存储层和计算层是完全独立的。用户可以根据实际需求灵活地扩展存储或计算资源,从而避免了资源的浪费。例如,当仅需要存储更多数据而不需要增加计算能力时,用户可以只扩展存储部分。这种灵活性不仅提高了资源利用率,还大幅降低了用户的基础设施成本。

存算分离的优势:

  • 弹性扩展:存算分离架构允许存储和计算独立扩展,用户可以根据业务需求灵活调整资源,避免不必要的开销。
  • 成本优化:在许多场景下,用户不需要为计算资源付出额外的费用,仅为存储的使用买单,这显著减少了开支。
  • 提高资源利用率:通过解耦存储和计算资源,Databend 避免了资源的浪费,特别是在数据增长迅猛而计算需求暂时未增加的情况下。

基于 对象存储 设计

传统数据仓库大多基于块存储设计,块存储虽然提供了高性能,但其成本也相对较高,且扩展性有限。而对象存储是一种面向海量非结构化数据的存储解决方案,具备更高的扩展性和性价比。对象存储的优势在于其天然的横向扩展能力,可以轻松存储 PB 级别甚至更大规模的数据,并且存储成本远低于传统块存储。

Databend 的定位是一个云原生数仓,在创立之初就将对象存储作为存储层 ,并进行了优化设计,使其能够在云环境下实现高效的存储管理。这样带来的好处是可以做到按需付费,同时也不用考虑副本的概念。你只要付出普通盘八分之一的价格,就可以享受到云上多 AZ 的容灾能力,基本上不用再担心数据会丢失。此外,它也提供数据加密功能,所有数据都是直接加密的。

利用对象存储在公有云和私有云环境中都能够显著降低成本。在公有云上,数据仓库通过将数据存储在对象存储中,减少对昂贵的块存储依赖,有效地降低存储成本。而在私有云中,由于对象存储硬件相对便宜,利用对象存储可以在本地部署环境中同样实现成本的优化,达到高性价比的存储方案。

在对象存储支撑方面,Databend 支持了包括 S3、Blob、MiniIO、HDFS、IPFS 在内的 20 多种对象存储协议,并且将这种能力开源了一个 OpenDAL 项目,捐给了 Apache 基金会,现在已经成为 Apache 毕业项目。

通过利用对象存储,Databend 进一步降低了用户的存储成本,特别是在面对海量数据存储需求时,成本优势尤为明显:

  • 按需付费:对象存储按容量计费,用户只需为实际使用的存储空间付费,这相比传统的块存储模型节省了大量资金。
  • 自动扩展:无需预先购买大量存储空间,随着数据量的增加,存储空间会自动扩展,避免了资源浪费。
  • 高性价比:对象存储的价格通常比块存储便宜 50% 到 70%,对于海量数据的存储需求,成本优势更加明显。
  • 节省数据副本: 传统大数据很难做到多区数据可用,需要大量的数据副本提升数据的可用性。如果你有大量的数据需要存储,数据副本可能会更贵。但用对象存储就会大大缓解这个痛点,AWS 的 S3,阿里云的 OSS、腾讯云的 COS 等对象存储本身就有副本,可以省出来大量构建副本的费用。

数据压缩

数据压缩是降低存储和传输成本的有效手段之一。在大数据场景下,原始数据量往往非常庞大,直接存储和传输这些数据不仅成本高昂,还会占用大量网络带宽,影响数据处理的效率。

Databend 通过先进的数据压缩算法,在保证数据完整性的前提下,极大地减少了存储空间的占用。这不仅减少了用户的存储开销,还降低了数据传输过程中的带宽使用成本。

Databend 采用了多种高效的压缩算法,根据不同的数据类型和应用场景,选择最适合的压缩方式。例如,对于文本数据,Databend 可以采用更高压缩率的算法,而对于需要频繁访问的数据,则选择解压缩速度更快的方案。这样的策略确保了在不同场景下,用户既能享受到高压缩率带来的存储成本降低,也不会牺牲数据处理的性能。

数据压缩不仅减少了存储空间的使用,还有效降低了计算过程中的 I/O 开销。压缩后的数据体积更小,意味着在数据处理过程中,系统需要读取和写入的数据量减少,从而减少了 I/O 次数和时间。这不仅加快了数据处理速度,还进一步降低了计算资源的使用成本。

典型案例

在实际应用中,许多企业通过使用 Databend 实现了显著的成本节约。以下是几个典型案例,展示了 Databend 在不同场景下的成本优化效果:

案例 1:多点基于 Databend 实现海量日志实时查询服务

多点从创立伊始,就致力于以大数据、云计算、AI 等数字技术改变零售业,是一站式全渠道数字零售解决方案服务商。平台要求支持 4 个月的日志查询,目前线上只支持 1 个月。每天日志是 400 万行项,1 个月的日志量是 1.2 亿, 考虑到后续业务的增长,预计每月日志数据量会增长到 2.5亿;4 个月的日志量是 10 亿行项左右。原先采用的 MongoDB 集群因资源受限无法支持 10 亿行项存储及查询,只能支持线上存储一个月数据,数据存储已到资源极限,迁移到 Databend 后数据存储量得到了 10 倍扩容,部署成本仅为原来的 1/10;在 10 亿数据量级下,常用查询均可做到秒级响应

案例 2:出海社交平台 Typing 基于 Databend,将成本降低 90%

Typing(输入中科技)是一家主要面向东南亚、拉美、中东等地区的社交平台。公司对精细化运营有着强烈需求,这就需要对用户、对整个平台做到知根知底。如何基于数据得出有价值的分析和洞察变得不可或缺。为了实现这一目标,Typing 将 AWS RDS 里的数据,定时以 T+1 的方式同步到 Databend 中进行数据计算分析,为运营和产品提供数据看板。同时,用户打标数据和业务埋点数据近实时同步到 Databend Cloud 中,为业务提供时效性更强的业务决策支撑。

  • Databend 提供了统一的 SQL 接口,符合产品和研发原有数据库使用习惯,节省了适应成本;
  • 同时,Databend 的高性能、低成本等特性完美满足了业务需求;
  • 迁移到 Databend Cloud 后,在查询速度更快的基础上,成本降低至原来的 1/10;
  • 在服务过程中,Databend 官方提供专属工程师服务,紧急问题天级反馈修复。

案例 3:某医药公司利用 Databend 助力 CDH 分析

某医药集团为中国具有影响力的药品零售连锁集团化企业,其零售供应链数据庞大,大表多,最大单表数量达到93亿行,原数据库无法满足数量存储需求,需对数据迁移。迁移过程中,数据备份文件导出后直接迁移到对象存储支持半结构化数据导入,无任何额外开发成本;迁移后,数据存储成本最高下降至原来的1/30,对大表数据的查询加载速度提升 2 倍。

总结

Databend 的存算分离架构、基于对象存储的设计以及高效的数据压缩技术,是其帮助用户大幅降低成本的三大核心技术法宝。通过这些创新技术,用户可以在保证数据处理效率的前提下,大幅减少存储和计算资源的使用,从而实现显著的成本节约。Databend 不仅适用于中小型企业,也为大型企业在处理海量数据时提供了高性价比的解决方案,帮助他们在激烈的市场竞争中脱颖而出。

关于 Databend

Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。 👨‍💻‍ Databend Cloud:databend.cn

📖 Databend 文档:docs.databend.cn/

💻 Wechat:Databend

✨ GitHub:github.com/datafuselab…


databend
20 声望10 粉丝

Databend 旨在成为一个 开源、弹性、可靠 的无服务器数仓,查询快如闪电,与 弹性、简单、低成本 的云服务有机结合。数据云的构建,从未如此简单!