Apache “归档”撤回 13 个大数据相关项目，Hadoop 已成“过气宠儿”

Hadoop

公开消息表示，Apache 软件基金会在短短 11 天内宣布归档（attic）19个开源项目，与大数据有关的有 13 个，其中 10 个项目属于 Hadoop 生态系统，包括 Sentry、Tajo 和 Falcon 等。

从整体上看，这次的行为无疑是一个“行业的分水岭”，能为从业者以及行业观察者提供一些趋势类的分析与观察。与大数据有关的已报废的 Apache 项目包括如下：

Apex：这个统一的平台面向大数据流和批处理，基于 Hadoop YARN。
Chukwa：这个数据收集系统用于监控大型分布式系统，基于 Hadoop 分布式文件系统（HDFS）。
Crunch，它提供了一套框架，用于编写、测试和运行 MapReduce（包括 Hadoop MapReduce）管道。
Eagle：这种分析解决方案用于立即发现大数据平台（包括 Hadoop）的安全和性能问题。
Falcon：这种面向 Hadoop 的数据处理和管理解决方案，为数据移动、数据管道协调、生命周期管理和数据发现而设计。
Hama：这种用于大数据分析的框架在 Hadoop 上运行，基于 Bulk Synchronous Parallel 范式。
Lens：提供统一分析界面，将 Hadoop 与传统数据仓库集成起来，如同一个整体。
Marmotta：一种面向链接数据的开放平台。
Metron：专注于实时大数据安全。
PredictionIO：这种机器学习服务器用于管理和部署生产就绪的预测服务。
Sentry：这种系统用于对 Apache Hadoop 中的数据和元数据执行细粒度授权。
Tajo：Hadoop 上的大数据仓库系统。
Twill：使用 Hadoop YARN 的分布式功能以及类似运行中线程的编程模型。

Apache Hadoop —— “过气的宠儿”

根据行业媒体的表述，“Apache Hadoop 作为昔日大数据领域的宠儿，早已过气。”

十年前，出世两年的 Hadoop 顺利通过孵化器成为了 Apache 顶级项目，同年，第一个 Hadoop 商业化公司 Cloudera 成立；数年前，简直就是 Hadoop 的主场，社区不断建立的新组件来扩展 Hadoop 的应用场景和可用性，其中有很多组件都成功脱离 Hadoop 成为了 Apache 顶级项目，例如 HBase、Hive、ZooKeeper 等。

这也让 Hadoop 成为近十年来大数据领域的典型代表。它新鲜，它开源，它催生出整个产品与供应商市场。

但 Hadoop 如今的“失宠”，可能和他选择的道路有关，早在数年前便有行业媒体预言过他的发展路径。

Hadoop 当初选择了全面普及的道路，从长远来看，这条道路有助于其提高自身影响力，但负面因素则是导致其逐渐偏离当初做出的最具价值的承诺。虽然 Hadoop 项目仍然又大又新，但如今的世界已经快速转至更重视速度、灵活性、微观要素甚至是已知数量的阶段。

在大数据世界中，大量投资于 Apache Sentry 的供应商和客户现在将需要弥补其损失并继续前进。用 ASF 的 Khudairi 的话来说：“每个项目背后的社区都会保持其代码的生命力（'代码不会自行编写'），因此社区改变项目步伐的情况并不少见。”

换句话说，尖端技术令人兴奋，但早期采用者要提防：它也是易变的。社区运营人员需要注意并管理潜在的风险。

正如 Hadoop 的处境一样，它让人们了解到大数据中蕴藏的无限可能，但同时也提醒人们，没有任何单一技术有能力重塑整个企业 IT 世界——至少以后不会再有。

部分参考资料；
1、https://www.zdnet.com/article...
2、https://www.datanami.com/2018...
3、云头条：《Hadoop和大数据正式走到头了：13个相关的Apache开源项目宣布报废》

segment fault 思否

Apache “归档”撤回 13 个大数据相关项目，Hadoop 已成“过气宠儿”

Apache Hadoop —— “过气的宠儿”

王治治

引用和评论

VR 眼镜成 Facebook 最艰巨的技术挑战？扎克伯格在财报上表了个决心...

定档 7 月！Community Over Code Asia 2025 议题征集全面启动！

蚂蚁技术研究院发布推理大模型强化学习框架，邀请开发者共同助力 AGI 生态

祝贺陈梓立(Tison)当选 2025 年度 Apache 软件基金会董事会

【Hadoop】HDFS架构解析

【Hadoop】HBase系统解析及适用场景

Koupleless 助力「人力家」实现分布式研发集中式部署，又快又省！