2.7版本发布丨Alluxio数据编排平台进一步深化对人工智能和机器学习工作负载在混合云和多云上的支持

“Alluxio 2.7版本进一步巩固了Alluxio在云上人工智能（AI）、机器学习和深度学习方面的重要地位，”Alluxio创始人兼首席执行官李浩源表示。“随着数据集的增长以及CPU和GPU计算能力的增强，机器学习和深度学习已成为AI主流技术。这些技术的兴起推动了AI的发展，但也凸显了数据和存储系统访问中存在的一些挑战。”

“我们在1000个节点的集群中部署了Alluxio，用来加速我们游戏AI平台上模型训练的数据预处理。事实证明Alluxio稳定、可扩展且易于管理。”腾讯大数据平台研发负责人陈鹏表示。“随着越来越多的大数据和AI应用容器化，Alluxio正在成为大型企业和机构的首选，作为加速数据分析和模型训练的中间层。”为了达到这一目标，腾讯Alluxio OTeam的毛宝龙团队与社区紧密合作，贡献了一系列重要的功能，包括运行期动态更新配置、CephFS存储支持，修复了超过二十个bug并增加了二十余个系统指标。

“拥有大规模分析和AI/ML计算框架的数据团队面临着越来越大的压力，需要让日益增长的数据源更易于访问，同时确保性能的稳定，这需要同时考虑数据本地性、网络I/O和成本问题，”ESG分析师 Mike Leone表示。“企业和机构希望选用更实惠和可扩展的存储，如云对象存储，同时避免昂贵的应用程序修改或处理新的性能问题。Alluxio通过抽象存储细节并使数据更接近计算侧来应对这些挑战，尤其是在混合云和多云环境中。”

Alluxio 2.7 版本新增了以下功能：

NVIDIA的数据加载库(DALI)是一个常用的Python库，支持通过CPU和GPU进行数据加载和预处理从而加速深度学习。在2.7版本中，Alluxio平台进行了优化，可以与DALI一起部署用于加速基于Python的ML应用，其中包括模型训练和推理之前的数据加载和预处理步骤。通过加速I/O密集型工作并允许并行处理后续的计算密集型训练，Alluxio数据平台上的端到端训练与传统解决方案相比实现了显著的性能提升。对于海量小文件的训练，与其他解决方案相比，该解决方案可以实现横向扩展（scale-out）。

Alluxio的核心定位是数据管理能力，这些能力包括对分散的数据源进行统一和实现缓存。随着Alluxio越来越多地用于计算和存储跨多个地理位置的场景，Alluxio自身也在不断扩展。本次更新采用新技术对数据进行批处理，从而增强其可扩展性。批处理通过使用内置执行引擎处理数据加载等任务，减少了管理控制器对资源的需求，从而减少了系统配置的工作量，降低了成本。

Alluxio现在支持用于Kubernetes的原生容器存储接口(CSI)驱动，以及用于ML的Kubernetes operator，这使得在容器化环境中的 Alluxio平台上操作 ML工作流比以往任何时候都更加容易。Alluxio的卷类型现在可用于 Kubernetes 环境。敏捷性和易用性是本次新版本关注的重点。

新版本还推出了智能缓存新功能，名为Shadow Cache，能够动态分析缓存大小对响应速度的影响，从而轻松实现高性能和低成本之间的平衡。对于大规模的多租户Presto环境，此新功能通过自助管理显著降低了管理开销。

“在存储与ML计算分离的情况下，数据平台团队利用 Alluxio 来简化数据预处理和加载阶段，”Alluxio高级产品经理 Adit Madan表示，“这种简化使得Spark ML、Tensorflow 和 PyTorch 等框架能最大限度地利用GPU。Alluxio 解决方案可在 AWS、GCP 和 Azure Cloud 等多个云平台上使用，现在也可在私有数据中心或公有云中的 Kubernetes上使用。”