公开消息表示,Apache 软件基金会在短短 11 天内宣布归档(attic)19个开源项目,与大数据有关的有 13 个,其中 10 个项目属于 Hadoop 生态系统,包括 Sentry、Tajo 和 Falcon 等。
从整体上看,这次的行为无疑是一个“行业的分水岭”,能为从业者以及行业观察者提供一些趋势类的分析与观察。与大数据有关的已报废的 Apache 项目包括如下:
- Apex:这个统一的平台面向大数据流和批处理,基于 Hadoop YARN。
- Chukwa:这个数据收集系统用于监控大型分布式系统,基于 Hadoop 分布式文件系统(HDFS)。
- Crunch,它提供了一套框架,用于编写、测试和运行 MapReduce(包括 Hadoop MapReduce)管道。
- Eagle:这种分析解决方案用于立即发现大数据平台(包括 Hadoop)的安全和性能问题。
- Falcon:这种面向 Hadoop 的数据处理和管理解决方案,为数据移动、数据管道协调、生命周期管理和数据发现而设计。
- Hama:这种用于大数据分析的框架在 Hadoop 上运行,基于 Bulk Synchronous Parallel 范式。
- Lens:提供统一分析界面,将 Hadoop 与传统数据仓库集成起来,如同一个整体。
- Marmotta:一种面向链接数据的开放平台。
- Metron:专注于实时大数据安全。
- PredictionIO:这种机器学习服务器用于管理和部署生产就绪的预测服务。
- Sentry:这种系统用于对 Apache Hadoop 中的数据和元数据执行细粒度授权。
- Tajo:Hadoop 上的大数据仓库系统。
- Twill:使用 Hadoop YARN 的分布式功能以及类似运行中线程的编程模型。
Apache Hadoop —— “过气的宠儿”
根据行业媒体的表述,“Apache Hadoop 作为昔日大数据领域的宠儿,早已过气。”
十年前,出世两年的 Hadoop 顺利通过孵化器成为了 Apache 顶级项目,同年,第一个 Hadoop 商业化公司 Cloudera 成立;数年前,简直就是 Hadoop 的主场,社区不断建立的新组件来扩展 Hadoop 的应用场景和可用性,其中有很多组件都成功脱离 Hadoop 成为了 Apache 顶级项目,例如 HBase、Hive、ZooKeeper 等。
这也让 Hadoop 成为近十年来大数据领域的典型代表。它新鲜,它开源,它催生出整个产品与供应商市场。
但 Hadoop 如今的“失宠”,可能和他选择的道路有关,早在数年前便有行业媒体预言过他的发展路径。
Hadoop 当初选择了全面普及的道路,从长远来看,这条道路有助于其提高自身影响力,但负面因素则是导致其逐渐偏离当初做出的最具价值的承诺。虽然 Hadoop 项目仍然又大又新,但如今的世界已经快速转至更重视速度、灵活性、微观要素甚至是已知数量的阶段。
在大数据世界中,大量投资于 Apache Sentry 的供应商和客户现在将需要弥补其损失并继续前进。用 ASF 的 Khudairi 的话来说:“每个项目背后的社区都会保持其代码的生命力('代码不会自行编写'),因此社区改变项目步伐的情况并不少见。”
换句话说,尖端技术令人兴奋,但早期采用者要提防:它也是易变的。社区运营人员需要注意并管理潜在的风险。
正如 Hadoop 的处境一样,它让人们了解到大数据中蕴藏的无限可能,但同时也提醒人们,没有任何单一技术有能力重塑整个企业 IT 世界——至少以后不会再有。
部分参考资料;
1、https://www.zdnet.com/article...
2、https://www.datanami.com/2018...
3、云头条:《Hadoop和大数据正式走到头了:13个相关的Apache开源项目宣布报废》
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。