Pinterest 关闭了世界上最大的 HBase 部署之一

Pinterest 弃用HBase的背景与原因

Pinterest工程团队最近宣布了弃用HBase的计划,主要原因是高维护和基础设施成本、缺乏HBase专家以及产品功能的局限性。Pinterest此前是全球最大的HBase生产部署之一,峰值时拥有约50个集群、9000个AWS EC2实例和超过6 PB的数据。然而,随着公司转向TiDB等其他数据库技术,社区开始质疑这是否是非关系型数据库(基于Hadoop和HDFS)衰落的又一迹象。

HBase在Pinterest的历史与挑战

HBase是Pinterest的第一个NoSQL数据存储,也是其最广泛使用的存储后端之一。尽管HBase在耐用性、可扩展性和性能方面表现出色,但随着时间的推移,其维护成本变得过高,主要原因包括多年的技术债务和可靠性风险。Pinterest的HBase版本比上游落后五年,缺少关键的Bug修复和改进,而升级过程又因遗留的构建/部署/供应管道和兼容性问题而缓慢且痛苦。

HBase的功能局限性

HBase缺少分布式事务功能,这导致了内部图服务的多个Bug和事故。此外,HBase在OLAP(在线分析处理)工作负载上的性能不如其他数据存储。Pinterest的工程师Alberto Ordonez Pereira和Lianghong Xu指出,这些局限性促使公司决定弃用HBase,并转向新的数据存储架构。

行业趋势与替代方案

Shivang Sarawagi在文章中指出,过去五年中HBase的谷歌搜索量持续下降,表明其受欢迎程度在下降。随着云原生服务的出现,行业中有许多替代方案可以满足特定的系统用例。尽管HBase仍在某些行业中使用,但其在行业中的关注度已逐渐转向现代数据库。

Pinterest的迁移经验

Pinterest此前分享了如何从HBase迁移到TiDB的经验,并实现了零停机时间。公司计划发布两篇额外的文章,详细记录他们如何进行全面评估并最终决定选择新的存储方案。

社区反馈

在Hacker News的讨论中,有用户分享了类似的经验,指出管理HBase和HDFS的工作量高且不可靠,导致一些公司迁移到Google的BigTable。这些反馈进一步印证了HBase在维护和可靠性方面的挑战。

结论

尽管HBase仍在使用,但随着现代数据库的兴起,行业焦点已逐渐转移。Pinterest的决策反映了HBase在当前技术环境中的局限性,但并不意味着该技术已完全过时。未来,Pinterest将继续分享其在存储技术选择上的经验和教训。

阅读 29
0 条评论