2

Hadoop

公开消息表示,Apache 软件基金会在短短 11 天内宣布归档(attic)19个开源项目,与大数据有关的有 13 个,其中 10 个项目属于 Hadoop 生态系统,包括 Sentry、Tajo 和 Falcon 等。

从整体上看,这次的行为无疑是一个“行业的分水岭”,能为从业者以及行业观察者提供一些趋势类的分析与观察。与大数据有关的已报废的 Apache 项目包括如下:

  • Apex:这个统一的平台面向大数据流和批处理,基于 Hadoop YARN。
  • Chukwa:这个数据收集系统用于监控大型分布式系统,基于 Hadoop 分布式文件系统(HDFS)。
  • Crunch,它提供了一套框架,用于编写、测试和运行 MapReduce(包括 Hadoop MapReduce)管道。
  • Eagle:这种分析解决方案用于立即发现大数据平台(包括 Hadoop)的安全和性能问题。
  • Falcon:这种面向 Hadoop 的数据处理和管理解决方案,为数据移动、数据管道协调、生命周期管理和数据发现而设计。
  • Hama:这种用于大数据分析的框架在 Hadoop 上运行,基于 Bulk Synchronous Parallel 范式。
  • Lens:提供统一分析界面,将 Hadoop 与传统数据仓库集成起来,如同一个整体。
  • Marmotta:一种面向链接数据的开放平台。
  • Metron:专注于实时大数据安全。
  • PredictionIO:这种机器学习服务器用于管理和部署生产就绪的预测服务。
  • Sentry:这种系统用于对 Apache Hadoop 中的数据和元数据执行细粒度授权。
  • Tajo:Hadoop 上的大数据仓库系统。
  • Twill:使用 Hadoop YARN 的分布式功能以及类似运行中线程的编程模型。

Apache Hadoop —— “过气的宠儿”

根据行业媒体的表述,“Apache Hadoop 作为昔日大数据领域的宠儿,早已过气。”

十年前,出世两年的 Hadoop 顺利通过孵化器成为了 Apache 顶级项目,同年,第一个 Hadoop 商业化公司 Cloudera 成立;数年前,简直就是 Hadoop 的主场,社区不断建立的新组件来扩展 Hadoop 的应用场景和可用性,其中有很多组件都成功脱离 Hadoop 成为了 Apache 顶级项目,例如 HBase、Hive、ZooKeeper 等。

这也让 Hadoop 成为近十年来大数据领域的典型代表。它新鲜,它开源,它催生出整个产品与供应商市场。

但 Hadoop 如今的“失宠”,可能和他选择的道路有关,早在数年前便有行业媒体预言过他的发展路径。

Hadoop 当初选择了全面普及的道路,从长远来看,这条道路有助于其提高自身影响力,但负面因素则是导致其逐渐偏离当初做出的最具价值的承诺。虽然 Hadoop 项目仍然又大又新,但如今的世界已经快速转至更重视速度、灵活性、微观要素甚至是已知数量的阶段。

在大数据世界中,大量投资于 Apache Sentry 的供应商和客户现在将需要弥补其损失并继续前进。用 ASF 的 Khudairi 的话来说:“每个项目背后的社区都会保持其代码的生命力('代码不会自行编写'),因此社区改变项目步伐的情况并不少见。”

换句话说,尖端技术令人兴奋,但早期采用者要提防:它也是易变的。社区运营人员需要注意并管理潜在的风险。

正如 Hadoop 的处境一样,它让人们了解到大数据中蕴藏的无限可能,但同时也提醒人们,没有任何单一技术有能力重塑整个企业 IT 世界——至少以后不会再有。

部分参考资料;

1、https://www.zdnet.com/article...
2、https://www.datanami.com/2018...
3、云头条:《Hadoop和大数据正式走到头了:13个相关的Apache开源项目宣布报废》

segment fault 思否


王治治
1.2k 声望5.2k 粉丝

学者所志至大,犹恐所得浅。