1

日前,由百度搜索联合北京大学、山东大学、湖南人工智能学会、西安电子科技大学等各地高校、学会,共同举办的「新智能·新搜索」为主题的首届搜索技术创新挑战赛(STI)圆满落幕。赛程历时 2 个月,超过 1600 名参赛选手报名参赛,覆盖 33 个省市及海外城市。

经过四大赛区的区域赛、复赛、决赛答辩,决出了最后两条赛道各自的冠军队伍。其中,“搜索问答”赛道的冠军团队是「四位歪歪猪」;“搜索模型推理优化”赛道的冠军团队是「错误代码 114」。他们分别凭借优秀的搜索技术运用、精确的算法架构获得评审团的一致认可。

赛后,我们对两组选手进行了专访。在采访中,选手们分享了赛前赛后的心得与体悟,聊了聊技术理想与对未来的期待。从他们的身上,我们可以了解到新一代开发者对于前沿技术的期待与热爱,以及他们身上薪尽火传的技术理想。

下面就让我们看一下采访内容(为方便阅读略有删减)

“搜索问答”赛道冠军团队:四位歪歪猪(重庆邮电大学 & 中山大学)
团队成员:陈宇航(队长)、谢华俊、高晋鹏、孟钰颖、张舒淇

“搜索模型推理优化”赛道冠军团队:错误代码 114(西安电子科技大学)
团队成员:谢玉圣(队长),陈国超,郑雨杭,詹荣瑞,贾冠豪,李甫(指导老师)

1、请问参加这次活动的初衷是什么?

「四位歪歪猪」:首先是提高技术能力,这次参赛的目标就是了解搜索技术,并且深入学习百度的 PaddlePadlle 框架。另外奖金也是一个目标。

「错误代码 114」 - 陈国超:我们团队的 5 个人对模型的加速和部署很感兴趣,参加本次比赛正是为提高这方面的能力。第二点是参加比赛可以丰富个人的简历,增加就业机会。

2、本次大赛的主题是“新智能·新搜索”,对于这个主题你们是怎么解读的?

「四位歪歪猪」:在我们团队看来是通过一些新的 AI 技术,让搜索引擎能更好地理解并满足用户的需求,让用户能更方便地获取到这个世界的信息。搜索技术出现多年,现在仍然是我们了解这个世界的主要方式。如果能借助新技术提升用户搜索的体验,可以带来一个非常好的结果。

「错误代码 114」 - 陈国超 :搜索是互联网的基本应用,搜索作为用户主动表达需求的场景,也是一个技术高度密集的场景。但随着互联网的飞速发展,互联网的内容变得多元丰富,资源量也数以亿万计。为了应对内容的变化,提供更好的服务,搜索算法也在与时俱进。在人工智能的加持下,搜索变得更加人性化,就像百度提出的知一跨模态大模型在搜索场景下便有着出色的表现。

本次比赛的两条赛道设置非常契合这一主题,赛道一让结果变得更准,赛道二让结果出的更快。

3、能否分享一下在比赛中的方案设计思路?

「四位歪歪猪」:我们的项目方案大致分为三个步骤,任务抽取、语义推理和答案聚类。任务抽取部分我们使用序列标注对数据进行训练;语义推理阶段使用的是交互式模型,通过对文本进行语义匹配得到最后的结果;答案聚类阶段使用了最大连通图和层次聚类的方法,得到置信度最高的答案结果。

「错误代码 114」 - 谢玉圣:我们也分为三个阶段。第一个阶段主要做的是图、算子级别的优化;第二个阶段则是利用了一些机制对推理引擎进行优化,比如 TensorRT 的动态推理机制、MultiProfile 机制以及英伟达的 CudaGraph 机制等。第三个阶段我们想在优化上更进一步,于是采取了英伟达的 FasterTransformer 框架来构建整个 Ernie 模型,最终来实现推理。

4、你们认为自己方案最大的优势是什么?能取得冠军的原因是什么?

「四位歪歪猪」:最大的优势可能是在任务抽取阶段的结果更加准确。我们团队在解码部分进行了一些改进,这是其他团队没想到或者没有做到的一点,在这部分我们的得分比其他团队高很多。

「错误代码 114」 - 谢玉圣:我们方案最大的优势应该是优化比较好。正如我们刚才所说,通过三个阶段的优化,最终取得了非常不错的成绩。另外就是团队成员在比赛中的默契合作与方案选择,参赛前的研究和工作经验,使得我们在解题时能有较多的思路。

5、在比赛中遇到的最大挑战是什么?又是如何解决的?

「四位歪歪猪」:最大的挑战是在上分瓶颈期的时候,团队成员会缺乏动力。这种时候我们会凭借不同的视角和分工,相互探讨对方的工作是否存在哪些问题、有哪些方向可以尝试,相互沟通、鼓励。一个人打比赛是很难的,因为视角不全面,只有团队配合在一起才能让解题方案更多样性,有更多坚持下去的动力和信心。

「错误代码 114」 - 郑雨杭:在比赛中遇到最大的技术挑战是 Ernie 模型。它的结构是比较简单整洁的,并且 baseline 已经基于 PaddlePaddle 进行了大量的优化。而我们通过 TensorRT 的新版特性、CudaGraph 和算子融合三个方向来进行初步的推理优化,再借助 FasterTransformer 进行进一步的推理速度提升,并且尝试使用了 INT8 进行推理,最终使得推理速度有了较大的提升。

6、如果有更充分的时间与资源,你们还有哪些优化或者迭代的方向或思路?

「错误代码 114」 - 陈国超:我们在比赛刚开始时便尝试了 INT8 推理,但那段思路还不够清晰,并且因为时间关系许多量化问题没有来得及解决,使得精度损失较大。另外如果有更充分的时间和资源,我们会借鉴百度 Paddle Slim 的方法,把模型的剪枝做的更好。

7、对大家而言,本次参赛经历有哪些收获?觉得参赛最大的意义是什么?

「四位歪歪猪」:首先,参加这次大赛让我们学到了检索技术以及 PaddlePaddle 框架的相关技术和应用,其次获得了丰厚的奖金。但最大的意义是在参赛过程中结识了很多技术大佬,认识了很牛的队友。这次的参赛经历丰富了我的大学生活,相信对于之后的就业找工作也会有比较大的帮助。

「错误代码 114」 - 贾冠豪:此前因为研究方向不同,对百度 PaddlePaddle 飞桨了解的不多。这次比赛让我们更加了解百度 PaddlePaddle 和英伟达 CUDA 相关的编程框架,并书写了相关的代码,拓宽了我们的视野,也让我们更加了解了百度的技术方向。

「错误代码 114」 - 谢玉圣:这次参赛让我认识了一批优秀的选手,也跟他们有了交流的机会。比赛结束后,大家仍然在选手群中分享自己的方案,去互相借鉴、互相学习,我觉得这很有意义。

8、相信通过参加比赛,对于搜索引擎一定有了更深刻的理解和认识。你们认为对于一个搜索引擎而言,最重要的一点是什么?

「四位歪歪猪」:搜索引擎的精准性。当用户在搜索时,引擎能够精准地提供给用户想要的结果是比较重要的。现在我们搜索一个问题,一般就会弹出很多信息,如何在这些信息中获得自己想要的那一个?我觉得这非常重要。

「错误代码 114」 - 郑雨杭:我认为是搜索的相关性,尤其是首页的相关性。用户在搜索栏中输入关键字时,首页展示的信息捕获了用户绝大多数的点击。一般来说,使用搜索引擎的用户如果没有在首页找到相关内容,往往会默认该搜索引擎无法找到相关内容。所以我觉得首页的相关性,是评估搜索引擎性能的一个标准。

9、 你们对技术的热爱来源于哪里?

「四位歪歪猪」:我最早是在本科时,通过学校的一个工作室接触到的技术比赛。在比赛过程中接触到了来自全国各地的选手,感受到了技术比赛的氛围,开阔了我们的视野,开始享受上分的过程中的那种技术成就感。

「错误代码 114」 - 贾冠豪:我小时候比较喜欢打电脑游戏,长大一些后对计算机编程有了一些了解,便在大学时选择了编程专业。实际学习后对深度学习、人工智能等技术特别感兴趣,对人工智能未来的实现也特别憧憬,希望将来能够为中国贡献自己的力量,让中华民族实现伟大复兴。

「错误代码 114」 - 詹荣瑞:我小学时就接触了软件开发。不知道大家有没有玩过魔兽争霸 3,这个游戏中的地图编辑器功能是我最早接触到的类似于编程的思想,类似于现在流行的低代码开发,通过设置一些条件、执行一些动作做出一个游戏地图。也是从对游戏的兴趣发展成为了对编程、对技术的兴趣。

10、希望自己以后从事哪一类型的工作?有没有想做出哪种能改变人们生活的高科技产品

「四位歪歪猪」:想成为一名 NLP 算法工程师。我今年大四,选择的研究生导师的研究方向就是 NLP。产品可能会想做一个类似于 ChatGPT 的智能问答机器人,感觉它可以像人一样回答问题很有趣并且很神奇。

「错误代码 114」 - 谢玉圣:希望可以从事深度学习推理和训练平台框架的开发工作,也特别希望可以加入到百度做 PaddlePaddle 推理、部署相关的工作,例如在一些国产平台的芯片上做优化。

高科技产品的话我希望可以做出一种电子眼镜,像名侦探柯南里的眼镜一样,看上去普普通通实际上有着很多的高科技。现在很多公司做出来的 VR 头显我觉得有些大,希望我之后可以做出来更轻盈便捷的产品。

「错误代码 114」 - 陈国超:我想去做基础框架的开发。目前嵌入式平台上的深度学习框架五花八门,如果有机会我愿意加入某一个公司,去参与开发一个有可能实现统一的基础框架。也希望能在人工智能领域的发展上留下自己的一点汗水和努力。

「错误代码 114」 - 贾冠豪:我希望能够做出一个人工智能管家,类似于钢铁侠中的管家贾维斯。我觉得人工智能管家市场前景非常好,也符合目前的家庭需求。

「错误代码 114」 - 郑雨杭:我想做智能义体。比如说智能义眼可以帮助失明患者回复视力,智能义肢帮助残疾人恢复行动能力。我觉得这有很高的社会价值,能改变人们的生活。

在 AI 技术加持之下,搜索领域的未来空间正持续拓宽。在时代的飞速发展中,如这两组选手一样的更多的新生技术力量,正在拓宽我们生活的宽度和广度。

本次「百度搜索技术创新挑战赛」已经圆满落幕,这是百度在技术探索和人才培养领域的一次探索,并切实的找到了一条具备可行性的路径。也期待更多企业、社会组织、高校、开发者、技术爱好者协力,与百度一同构建新型、复合型的人才培养生态,共赢智能搜索新未来。


思否编辑部
4.3k 声望116.9k 粉丝

思否编辑部官方账号,欢迎私信投稿、提供线索、沟通反馈。