头图

专访 NVIDIA :携手百度共建智能搜索

21 世纪初诞生的搜索引擎迄今已有近二十年的发展历程。伴随着互联网技术的发展,今天的搜索引擎已经能够直接响应用户的自然语言指令,搜索体验全面提升,使用场景也深入到了互联网的每一个角落。

百度搜索作为国内最大、全球领先的互联网搜索引擎,一直以来都致力于搜索技术的研发与探索。人工智能热潮兴起后,百度高度重视 AI 在搜索引擎技术的应用,面向用户呈现更加智能的搜索体验。

百度的征程离不开合作伙伴的支持。NVIDIA 具备业界领先的 AI 软硬件技术,与百度发展人工智能战略、打造智能搜索引擎的需求一拍即合。双方的合作也超越了技术维度,扩展到了生态建设、人才培养等领域。近日,由百度发起的百度搜索技术创新挑战赛( STI )就邀请了 NVIDIA 作为加速计算解决方案提供商,本次大赛也成为百度和 NVIDIA 深度合作历程中的又一个里程碑。

本次大赛以“新智能·新搜索”为主题,围绕人工智能、检索技术,为参赛团队提供海量百度搜索脱敏业务数据进行训练及测试。本次大赛面向全国企业、高校、科研机构、项目团队及个人广发英雄帖,旨在挖掘和培养搜索人才,促进业内交流、产教融合,推动算法和技术应用创新。

大赛展现了百度与 NVIDIA 共享技术与创新思维的核心理念,反映了两家公司对智能搜索领域后备人才培养的高度重视。近日,思否社区的记者特别采访了 NVIDIA 的互联网解决方案架构总监陈川,并邀请百度搜索平台首席架构师吴永巍与百度搜索策略部资深工程师石岱庭共同回答有关双方合作的部分问题。

QNVIDIA 公司有很多像百度这样的合作伙伴。在人工智能高速发展的浪潮中,NVIDIA 是如何支持大大小小的合作伙伴利用 NVIDIA 的技术构建自己的人工智能业务和蓝图的?能否逐一解读

陈川:NVIDIA 是专注于为业界提供加速计算平台的公司,我们的产品覆盖了硬件、系统软件、加速库、平台软件、应用平台的开发框架等多个层次,涉及 AI 、图形和高性能计算等领域。在每一个层面,我们都会为合作伙伴和开发者提供开放的合作和支持框架。我们一直致力于为各行业的人工智能深度应用、发展和创新生态提供帮助。

对于像百度这样的头部合作伙伴,我们有覆盖不同业务和技术层面的专门团队来推动全方位的合作,结合 NVIDIA 最新的研究成果与产品技术,根据合作伙伴的发展规划、重点项目来提供针对性的软硬件方案和专项加速优化支持。对于中小规模合作伙伴,我们会分享一些面向企业的典型应用及开发部署框架等技术方案,并通过积极参与开发者的生态共建、提供社区支持等方式,支持不同领域的人工智能应用发展。

NVIDIA 在自动驾驶、医疗等人工智能技术快速发展的领域还推出了自有的软硬件平台方案。我们还构建了云端数据中心上的 LaunchPad 服务,帮助客户在我们的专用加速计算基础设施上运行完整的 NVIDIA AI 技术栈,实现 AI 工作流的快速原型设计和测试,从而加速现代应用程序的开发和部署。

为了推动行业创新,我们还推出了初创加速计划来支持各个行业的 AI 创业公司,从产品、技术和市场等多个方面来提供支持。

从整个 AI 行业生态来看,我们为头部客户、中小合作伙伴和初创企业都提供了非常完整的支持体系。

Q:百度与 NVIDIA 之间的合作达到了怎样的深度?双方从哪些软硬件层面开展共同研发、探索,有哪些具体的合作场景?

吴永巍:百度与 NVIDIA 之间一直秉承强强合作、加速创新的理念来展开交流。我们希望能充分发挥各自领域的技术优势,实现能力互补,做到技术创新与应用实践的深度结合,共建繁荣活跃的技术生态。百度与 NVIDIA 都高度关注最前沿的技术创新,并在超大模型、深度学习编译器、虚拟化技术、索引技术、高速互联与研发模式革新、软硬一体优化搜索 AI 模型、超大模型应用落地、极致 AI 算力效能提升等领域进行全方位的深度合作。两家公司会针对最新软硬件技术进行联合优化应用,例如 NVIDIA 的最新 GPU 计算平台等是最早一批部署在百度的生产环境中,百度会在业界最前沿的应用场景中与 NVIDIA 共同探索创新技术的优化落地等。双方还会共同探索技术类研究项目,并共同举办技术大赛、推动技术社区与生态建设。

Q:百度与 NVIDIA 的合作过程中,在 AI 搜索领域有哪些创新的发现与实践?

石岱庭:我们使用NVIDIA 训练卡,高效训练了“知一”搜索跨模态大模型。该模型持续学习全网文本、图片、视频、结构化等异构信息,构建了业界领先的模型能力。“知一”已在百度搜索引擎中全面应用,可以更准确地理解用户输入的文本、语言、照片等信息,给用户提供更符合预期的结果,并可以和用户进行多轮对话交互。

陈川:近年来,像百度“知一”这样的超大规模预训练模型发展非常迅速,模型的参数规模快速增长到了千亿、万亿级别。NVIDIA 一直致力于帮助合作伙伴加速超大规模模型的训练过程。一方面,我们发布了开源的 Megatron-LM 训练框架,推出了超大模型训练的 SuperPod 系统参考设计,在 AI 领域的权威 MLPerf 榜单也一直占据领先地位;另一方面,除了高性能 GPU,我们在系统网络通信、并行训练的软件框架等方面都提供了深度的优化加速支持。在跨多模态领域,我们对图像和视频的解码预处理环节都提供了加速支持。

与百度的合作过程中,我们还提供了 GPU 计算专家团队的专门支持,帮助百度分析底层的性能瓶颈,针对大模型的变长代码、推理性能量化提升等领域开展合作。我们还同百度共同改进深度学习编译器、优化 GPU 算法和通信效率,从而在百度自身的高性能计算集群上实现最佳的训练性能。

Q:创新人才的培养是人工智能产业发展的动力源泉之一。NVIDIA 怎样看待这一方面?NVIDIA 采取了哪些努力推动行业后备人才建设?NVIDIA 与百度本次在大赛上的合作都有哪些可以为参与者带来的价值?

陈川:人工智能产业离不开创新人才培养,这也是 NVIDIA 一直非常重视的层面。NVIDIA 在很多前沿领域的问题研究上与众多高校和研究机构合作,也资助了很多研究项目,为其提供先进技术支持。 NVIDIA 还在努力耕耘和支持开发社区,为开发社区提供全方位的技术培训资料、开放研究成果和开源代码。我们还会为高校提供 NVIDIA 深度学习培训中心 (DLI) 的动手实验课程,帮助高校进行 AI 计算与数据科学的应用开发实战培训。

每年我们还会有面向全球的 GTC 大会,吸引了成千上万的全球合作伙伴和开发者共同参与。我们也在积极支持百度的 Paddle 峰会,共同培育 AI 开发生态。百度搜索技术创新挑战赛也是我们与百度搜索共同发掘和培养这一领域中人才资源的合作尝试。我们和百度为大赛联合提供了最新架构的 GPU 计算平台和技术支持,以及大赛培训视频、直播讲座等,希望能够帮助有创新能力的开发者在竞赛中发挥出最好的实力。

在开源社区的人才培养方面,我们有很多平台级别的加速库都已经贡献到了开源社区,帮助客户、合作伙伴与开发者通过开源的方式来共享我们的成果,加速人工智能的行业应用落地。我们也会同开源社区开展横向合作,大家相互贡献,最终帮助客户基于市面上流行的基础开源开发框架,来结合我们的GPU 加速能力实现计算加速。

Q:NVIDIA 作为 GPU 的发明者,是怎样将自身在 GPU 多年的优势转化为人工智能领域的领先技术动能?如今人工智能研究进入深水区,模型愈加庞大、对数据存储、传输的要求愈加苛刻,同时 AI 专用加速器成为新的流行范式,NVIDIA 如何应对这样的挑战?

陈川: NVIDIA 一直专注于利用 GPU 的通用性和编程性的优势,通过我们的技术与性能的持续提升来支持不断增长的、广泛的计算需求。NVIDIA 的 GPU 在图形计算、科学计算和 AI 领域都提供了一流的加速能力,获得了极为广泛的应用。如今,我们不仅看到了 AI 领域的超大模型计算需求,同样也看到了诸如元宇宙数字孪生等领域的高复杂度、高解析度仿真渲染这样的需求,以及传统的高性能计算与 AI 结合的计算需求。这些需求对未来数据中心的数据处理、通信和计算基础架构提出了极高的性能和通用性要求。发展到今天,NVIDIA 已经拥有了覆盖 GPU、CPU 和 DPU 芯片产品,以及上层的平台应用开发框架的完整的全栈解决方案。

我们即将上市的 Grace Hopper 超级芯片将 NVIDIA 的顶级 GPU 性能与我们自研的 Grace 高性能 CPU 结合在一起,在单个超级芯片中实现了超高带宽的通信能力,从而更好地支持下一代 HPC 和人工智能计算集群的建设。这样可以帮助我们的客户以更好的性能支撑未来更大的数据集、更复杂的模型与多样化的计算负载。

NVIDIA 未来还是会专注于做好自己的产品,为市场提供最好的通用加速计算服务,并同广大的合作伙伴不断开拓新的市场机遇。

Q:机器学习与在线搜索是两个能耗较高、碳排放较高的领域,百度与 NVIDIA 如何共同解决能耗和碳排挑战,为节能减排目标做出积极贡献?

陈川:NVIDIA 的加速计算平台本质上就是通过更少的硬件和能耗来帮助客户提升性能,为客户增效的同时降低成本。我们可以用 GPU 服务器提供十倍甚至几十倍数量的 CPU 服务器达到的性能,这样不仅能够提升计算速度,同时可以减少整个数据中心中机柜、网络、电源的投入,大大降低整体建设成本,减少整体的碳排放,帮助客户提升 ESG 管理。

我们也一直在同百度在各种特定计算负载上共同合作,通过深入地优化分析建立软硬件一体化的协同方案,从而提升效能。这样不仅能帮助百度内部的业务实现降本增效,百度云也在把这些成果直接提供给外部客户,帮助整个云行业实现节能减排。

Q:请问陈川老师,您个人负责 NVIDIA 的哪个部门,这个板块当前的成果和未来的发展方向是怎样的?基于您个人的经验,您对人工智能产业未来的走向有哪些看法?例如云边端的深度融合、更少的训练样本量、人工智能研究的平民化、大众化等。

陈川:我负责 NVIDIA 互联网解决方案架构团队。目前在人工智能的应用落地和人才储备上,互联网行业整体都是领先于传统行业的。人工智能技术已经非常广泛地应用在了线上内容理解、创作、智能交互、广告推荐和搜索等领域,为互联网产业创造了很多核心价值。随着 AI 能力和基础加速计算速度的不断提升,我们预期超大 AI 模型能够进一步提升这些领域的能力,并在更多产业推动 AI 的多元化应用。

我们看到AI 计算在自动驾驶等新兴领域发展得非常迅猛。随着 AI 在数字孪生、物理世界仿真等场景加深应用,AI 也将在云边端与业务实现深度结合。NVIDIA 也将在云边端基于我们的 GPU 硬件提供一致性的开发框架和体验,帮助客户和合作伙伴加快应用的开发到落地部署的过程。

Q:请您对本次大赛的参赛选手给出一些建议和寄语。他们怎样才能取得好成绩,NVIDIA 提供了哪些支持,选手可以到哪些社区寻找资源?

陈川:NVIDIA 非常高兴能够携手百度来合作本次的百度搜索技术创新挑战赛。我们期望这次比赛不仅能够帮助我们在搜索领域发现创新的想法,发掘优秀人才,也能够为优秀的选手提供前沿的 AI 技术支持,为他们创造共同交流学习和实践的平台。

我们和百度一起为大家提供了基于最新技术的 GPU 计算平台,也提供了相应的培训视频课程、直播讲座,希望能够帮助各位有创新能力的开发者发挥出最好的实力。大家也可以从百度的 Paddle 社区、NVIDIA 的开发者社区和深度学习培训中心获取相关的技术资源。最后也祝各位选手能够发挥出自己最好的实力,在比赛中取得优异的成绩。


SegmentFault_行业快讯
第一时间为开发者提供行业相关的实时热点资讯

思否编辑部官方账号,欢迎私信投稿、提供线索、沟通反馈。

3.9k 声望
116.9k 粉丝
0 条评论
推荐阅读
亮点回顾|2022 re:Invent Recap:创新源动力——深度学习技术洞察与实践
2022 年 12 月 30 日,由 SegmentFault 思否社区联合亚马逊云科技共同举办的“2022 re:Invent Recap:创新源动力——深度学习技术洞察与实践”线上沙龙活动圆满落幕。

思否编辑部3阅读 9k

“百度一下”后,你想得到什么样的答案?
“百度一下,你就知道。” 2005 年,百度提出了这句经典的 Slogan。这句 Slogan 除了在一定程度上帮助百度奠定了国内搜索引擎领域不可动摇的霸主地位,同样也培养出了国内用户的搜索意识。

思否编辑部6阅读 17.1k

封面图
百度搜索首届技术创新挑战赛:搜索模型推理优化
近年来基于Transformer模型结构的预训练语言模型技术快速发展,并在NLP领域取得了巨大成功。百度搜索引擎依托与深厚的AI技术积累,搭建了超大规模的模型推理异构加速集群,通过落地Ernie文心模型,为用户带来了显...

致Great10阅读 574

基于BERT进行抽取式问答
百度搜索技术创新挑战赛(简称STI)的任务一是答案抽取,然后通过查询相关资料发现huggingface的transformers有答案抽取现成的模型,笔者先基于本次开源的预训练模型探索下如何使用,后期改成paddlenlp来实现

JennyHoler9阅读 448

封面图
百度搜索首届技术创新挑战赛有奖征文|分享百度搜索大赛
有人举手发问:海克斯科技是什么梗?还有人举手发问:KFC🍗打工可以偷吃几块不? 爱美的人问:怎么去除很早一以前的痘印,那块有点黑。北方的朋友也会向南方的朋友发问:大蟑螂🪳是什么呀?南方的朋友也会对奇北方...

SegmentFault思否5阅读 15.7k

封面图
搜索界“奥林匹克”开赛 百度联合北大等高校广招AI人才
“搜索”长久以来都是互联网居民的刚需,是如同“水电煤”一般的基础设施。而随着用户需求日益多样化,搜索引擎的供给形态日益多元化,使用搜索的渠道入口也在延伸。凭借AI大模型在搜索领域率先应用,百度勇攀搜索技...

思否编辑部5阅读 9.4k

封面图
百度搜索首届技术创新挑战赛资料分享
赛题背景近年来,随着机器阅读理解与深度预训练模型等相关技术的发展,抽取式智能问答系统的性能取得了非常明显的提升。然而,在开放领域的搜索场景下得到的网页数据会非常复杂,其中往往存在着网页文档质量参差...

jessycarmanic9阅读 409

封面图

思否编辑部官方账号,欢迎私信投稿、提供线索、沟通反馈。

3.9k 声望
116.9k 粉丝
宣传栏