【编者按:AI技术蓬勃发展,已逐渐渗透进国民经济的各行各业。但企业在AI技术的应用仍面临数据、算法、技术等方面的挑战,需专业AI开发与计算工具帮助企业降低AI应用门槛,加速创新。在此趋势下,AI开发平台纷纷涌现。白海科技将通过系列文章,梳理典型AI开发平台,并对其技术与功能进行对比分析,为广大企业与行业伙伴揭开AI开发平台的神秘面纱】
1. AI开发平台背景
AI技术日益渗透进各行各业
近年来,随着大数据、云计算等技术的长足进展,机器学习、计算机视觉、语音识别、知识图谱等人工智能技术飞速发展,逐渐跨越科学与应用的“鸿沟”,日益渗透进国民经济的各行各业。除互联网等数字化原生企业作为AI技术应用的先行者外,零售、制造业等传统企业和政府机构也在积极拥抱人工智能这一颠覆性技术,以局部业务为试点进行探索。
图1 人工智能技术在我国各行业的应用现状
AI加速商业化仍需平台工具的助力
虽然人工智能技术潜力巨大,对企业的创新和发展具有颠覆性意义,但其在具体实践落地中仍面临来自数据、算法和算力层面的重重挑战。
数据方面:数据是算法开发与训练的养料,影响算法训练的效果与质量。数据层面的核心挑战是海量数据的管理与探索,一方面半结构化和非结构化数据的激增,加剧数据接入、数据标准化和数据价值挖掘的挑战;另一方面,实际业务和生产中的数据噪声较多,也极大提升了数据管理和探索的难度。此外,数据标注繁冗也是重要的挑战,海量数据标注通常耗费大量的时间和精力。
算法方面:在算法开发与训练方面,随着算法模型日益庞大和复杂,最核心的挑战是训练效率和计算性能。其次,AI开发、训练技术和工具门槛高,在AI专业人员普遍短缺情况下,企业对AI技术的探索与应用阻力较高;此外,算法开发与生产涉及多角色协同,目前缺乏有效的协作工具与平台,沟通不畅极大地影响效率。
算力方面:一方面算力成本居高不下,企业算法开发训练成本极高,传统企业负担算力成本具有较大压力;另一方面,企业目前普遍存在算力资源利用效率低的问题,需求与算力供给的有效匹配和算力资源的高效调度均亟待优化。
面临以上挑战,企业亟需集数据接入、数据探索、模型开发、算力资源调度管理等于一身的AI开发与生产基础工具,以帮助其低成本、高效率地应用AI技术,加速产品和业务的创新。AI开发平台产品亦由此应运而生。
2. AI开发平台分类与概述
白海科技从产品逻辑和形态的角度对AI开发平台进行初步分类,与大家探讨。我们将AI开发平台分为两大类——集成式机器学习平台和AI基础软件平台。
图2 主要AI开发平台类型
2.1 集成式机器学习平台 *
集成式机器学习平台以算法开发全流程为导向,集成数据准备、模型开发、模型训练与部署等环节的相应工具或子产品集,在同一平台环境中满足企业算法开发与生产的全生命周期需求。集成式AI开发平台致力于提供一站式“大而全”的服务,且期望同时满足数据科学家/算法工程师的专业需求和缺乏算法开发基础的数据分析师和业务人员的要求,对企业客户和实际用户来说,通常会存在产品过于厚重复杂的挑战。
云厂商是集成式机器学习平台的核心玩家之一,依托自身云服务技术和资源,帮助客户在云上快速搭建机器学习模型。国际AWS,国内阿里云、百度、华为等均已推出机器学习平台产品。
AWS Sagemaker:亚马逊云科技于2017年11月推出了 Amazon SageMaker 机器学习平台服务,是全球集成式机器学习平台的先行者。Sagemaker产品的广度和深度均处于行业标杆地位,广度方面不断完善AI开发各环节的工具,实现MLOps;深度方面,各环节工具相对更加精细化,且仍在不断打磨与完善其易用性。
Azure ML:微软早在2015年即推出ML Studio(经典版)——简易的拖拽式无代码开发环境。随着市场和技术的发展,微软不断完善机器学习平台相关功能,打造Azure Machine Learning (Azure ML),为数据科学家和算法工程师提供机器学习全生命周期服务。目前Azure ML已成为MLOps标杆平台之一。
阿里云PAI:起初服务于阿里集团内部,2018年正式商业化,主要提供PAI-Studio可视化建模平台、PAI-DSW云原生交互式建模平台、PAI-DLC云原生AI基础平台、PAI-EAS云原生弹性推理服务平台四大子产品。PAI重点聚焦在模型的开发、训练和部署环节。基于阿里云的计算性能优化是其核心优势,PAI可为AI开发与生产提供大规模训练和推理的算力,支持阿里巴巴容器服务(ACK)集群级别的资源隔离。
百度BML:2020年,百度智能云正式发布飞桨AI开发平台企业版BML4.0,简称BML。BML基于PaddlePaddle平台和组件进行封装,主要为企业提供低门槛算法开发解决方案——一站式人工智能建模与推理预测服务。开源平台中积累的丰富的算法库和面向专业AI开发人员的工具是其核心优势,同时,百度BML支持广泛对接百度云内外部数据源。
华为云ModelArts:2018年,华为推出ModelArts 1.0。ModelArts与Sagemaker相似,致力于提供完善的端到端机器学习服务。ModelArts与华为软硬件生态(Asend芯片、CANN算子、MoXing、MindSpore框架等)深度协同,极大提升计算性能;同时在支持云-端-边快速部署方面,也具有优势。
(* 本文提及的平台与产品不具有任何排名和评价性质)
2.2 AI基础软件平台
AI基础软件平台以用户交互和使用需求为导向,可根据用户在AI开发和生产中的实际需要,配置相应功能模块。相比集成式AI开发平台,AI基础软件平台工具对数据科学家和算法工程师而言更加轻量、易上手。
从产品类型来看,AI基础软件平台更加丰富多样,各产品有差异化的功能和技术侧重点。典型的产品包括Databricks数据与AI平台、基于Kubernetes的机器学习开源工具集Kubeflow、以及以IDE为核心的Google Colab和JupyterLab等。值得一提的是开源工具平台Kubeflow,2017年12月该开源社区成立,历时两年,2020年3月Kubeflow1.0版本正式发布。Kubeflow的基础是Kubernetes,利用云原生技术的优势,让算法开发人员快速、便捷地部署和使用AI开发生产相关技术和软件。Kubeflow严格来说并非为一个统一的平台,而是一群松散工具组件的集合,各组件可单独使用也可协同配合使用。
白海科技也属于AI基础软件平台范畴,致力于提供新一代AI基础软件平台,推出Baihai IDP(Intelligent Development Platform),为企业、数据科学家和算法工程师提供易用的集成开发环境、高性能的计算引擎和高效的数据管理平台。
3. AI开发平台的核心价值
虽然两类平台在产品形态和侧重点方面具有差异,但均为数据科学家在数据管理、模型开发、计算与训练等算法开发核心环节提供了丰富工具选项,帮助其提升开发效率,降低企业AI应用成本。
数据管理:算法开发与训练中,数据来源通常极为分散,数据存储具有多样性。通过AI开发平台,可便捷对接各类数据源,对数据集的接入、增删进行统一管理,简化数据科学家/算法工程师在数据接入与管理环节中的工作。
建模准备:数据质量是影响模型效果的关键,数据科学家和算法工程师通常需消耗大量时间与精力在数据探索、数据预处理和数据标注等准备工作环节。AI开发平台通过提供可视化的数据探索工具、数据清洗和数据增强等预处理工具和数据标注辅助工具,最大化提升算法开发人员的效率,使其更加专注在模型开发。
模型开发:模型开发方面,AI开发平台的核心价值是提供高易用性的集成开发环境。在这一方面,集成式机器学习平台和AI基础软件平台的功能侧重点具有明显差异。集成式机器学习平台通常同时提供交互式建模和拖拉拽的可视化建模两种开发工具,以满足专业数据科学家/算法工程师和低门槛业务人员/数据分析师的差异化需求,其中交互式开发环境以集成开源JupyterLab、Jupyter Notebook为主。AI基础软件平台则更侧重于服务数据科学家和算法工程师,为其提供支持多语言、环境管理、代码辅助、专业包库管理等功能的更便捷易用的交互式开发环境,帮助其提升效率。
计算与训练:模型训练需要消耗大规模算力资源和大量计算等待时间。AI开发平台通过提供分布式训练架构提升训练效率、降低开发人员等待时间,通过弹性计算资源的管理,有效提升算力资源利用率,节约算力成本。此外,白海IDP(Intelligent Development Platform)差异化地提供断点续跑和自动休眠功能,实现任务计算中间状态的保存与恢复,确保已经消耗的资源不被浪费,并大幅节约计算与训练时间。此外,部分集成式机器学习平台如AWS Sagemaker、百度BML开始提供模型评估工具,帮助开发人员快速识别模型选择和训练中的问题,助力模型迭代优化。
模型部署与运维:企业进行模型开发的最终目的是将其部署于业务应用中,实现商业价值。但模型的部署也面临重重挑战,如需支持不同的框架、异构硬件设备(CPU/GPU/NPU/FPGA等)等。AI开发平台,尤其是提供端到端服务的集成式机器学习平台,会帮助企业进行模型全生命周期的管理,打通开发训练和生产环境,实现模型的快速高效部署。
图3 主要AI开发平台功能对比*
(* 根据各产品官网明确公开信息整理,如有问题请及时联系我们)
【预告:下一期,我们将对部分云厂商集成式机器学习平台进行功能和技术的对比分析,敬请期待】
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。