思否编辑部
  • 1.3k
  • 本文由 羽飞 撰写(锁定作者已打开)

Flink Forward Asia 2019:阿里巴巴公布 Flink 1.10 版本预告,并宣布开源机器学习平台 Alink

上周四,阿里巴巴在 Flink Forward Asia 2019 大会上公布了新版本大数据处理引擎 Apache Flink 的部分信息,并宣布正式开源基于 Flink 研发的机器学习平台 Alink。

据官方介绍,新的 Flink 1.10 版本已经收纳了基于 Flink 搭建的阿里巴巴内部自用的实时计算平台 Blink 的全部功能,预计将于明年 1 月正式发布。除了完成合并所带来的好处之外,Flink 1.10 的特点还包括 Hive 集成兼容性提升,更好的 Python 支持,原生 Kubernetes 集成支持,以及新增多个主流机器学习算法库等等。

Flink Forward Asia.png

阿里巴巴从 2015 年开始基于 Flink 而建立了内部版本 Blink 平台,长期服务于阿里巴巴内部的搜索、推荐、广告等核心实时业务。经过三年时间的实践与打磨,再加上 Blink 与开源版本 Flink 之间差距越来越大的原因,阿里巴巴于去年 12 月在 Flink Forward China 峰会上宣布将开源 Blink。

实际上,这已经是 Blink 自今年 1 月正式开源尚不足 1 年时间内的第二次并入 Flink 正式版,上一次并入是 3 个月前的 Flink 1.9 版本发布。阿里巴巴在较短的时间内投入了大量人力与资源,多位 Apache 社区项目管理委员会成员与代码提交者贡献了超过 150 万行代码。

Apache Flink 是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算,并部署在各种集群环境中,针对各种大小的数据规模进行快速计算。

Apache Flink 最初源于由德国柏林工业大学、柏林洪堡大学、哈索·普拉特纳研究所共同发起、合作的一个名为「StratoSphere:云上的信息管理」的大数据批计算研究项目,之后核心开发者从 StratoSphere 中将 Flink 分离了出来,目的是尝试通过流式计算来进行所有的大数据计算工作。2014 年 3 月,Flink 进入 Apache 孵化器,并于同年 12 月成为 Apache 顶级项目。至今,包括腾讯、华为、网易、小米、滴滴、顺丰等在内的大量企业均已成为 Flink 用户。

Flink 的核心是流计算数据处理引擎,其针对数据流的分布式计算提供了数据分布、通信、容错机制等功能,可同时支持流处理与批处理。基于流计算引擎,Flink 可提供更强的计算能力与更易用的编程接口,以便开发者创建分布式任务。此外,Flink 还针对特定的应用领域提供了不同的库,比如机器算法库 FlinkML,可提供具有扩展性的机器学习算法以及直观的 API 和工具。

Alink 开源.png

而在本次大会上宣布正式开源的机器学习平台 Alink,则不同于 FlinkML,它是由阿里巴巴计算平台 PAI 团队基于新版本的 Flink 而重新开发的通用算法库,是 PAI 算法平台的一部分,支持 Kafka、HDFS、HBase 等一系列开源数据存储平台,未来 Alink 也可能将并入 FlinkML。

Alink 作为同时支持流计算与批计算的机器学习算法平台,提供了机器学习、统计等方面的超过 200 种常用算法与便捷的操作框架,同时对算法的实现进行了针对性的优化,进一步提升了算法的运行效率。目前 Alink 已正式上线 GitHub,开发者将无需了解 Flink 就能轻松完成从数据处理到模型训练、实时预测、可视化展示的全流程,或利用 Alink 处理统计分析、机器学习、实时预测、个性化推荐、异常检测等诸多任务。

据了解,Alink 同样也应用于阿里巴巴内部的搜索、推荐、广告等多个核心实时业务中。在今年的「双11」中,Alink 成功克服了超大规模实时数据训练的压力,单日数据处理量高达 970PB,每秒处理峰值数据超过 25 亿条,最终实现 4% 的商品点击转化率提升。

到目前为止,阿里巴巴已在 GitHub 上开放了 283 个代码库,而阿里云则开放了 278 个,阿里巴巴集团为国内开源贡献量最大的企业。


GitHub 相关项目地址:

通用算法平台 Alink

SegmentFault.png

阅读 2.3k

推荐阅读

第一时间为开发者提供行业相关的实时热点资讯

20786 人关注
1890 篇文章
专栏主页