张宏江:开源时代如何解决人的思维孤岛

思否编辑部

图片

原文标题:《张宏江:开源时代如何解决人的思维孤岛》
原文作者:智源社区

智源导读:一直以来,“产学研”三者的边界并没有标准的范例供人们遵循。过去十年,随着人工智能技术的广泛应用,数字时代为产业发展带来的“无界”与“协同”,让产业链的上下游协同发生了微妙演变。

而这当中,开源更是加速了AI算法的普及,北京智源人工智能研究院理事长张宏江提到,开源时代面临的最大挑战,不光是数据孤岛,而是数据孤岛本质上反映出人的思维孤岛。如何解决人的思维孤岛,让年轻一代的学者更加开放,更加适应开源,是一个长期的过程。

在过去一段时间,产、学、研三者的边界开始逐渐模糊。当前,三者处于什么样的状态?身处其中的个人应当如何定位自己?高校、企业、研发机构的观念应有哪些调整?如何让年轻一代的学者更加适应一个属于开放开源的未来?

12月28日,在“未来科学大奖周2020”的“产学研论坛”中,由北京智源人工智能研究院理事长张宏江、奇绩创坛创始人兼CEO陆奇,微众银行首席人工智能官、香港科技大学讲席教授杨强等人围绕“数字时代的产学研”这一主题进行了深度对话,其中未来论坛理事、软银愿景基金管理合伙人陈恂主持了对话。

01 过去十年,产学研的距离在不断拉近

谈及过去十年间产学研的现状,北京智源人工智能研究院理事长张宏江表示随着移动互联网、AI的普及,其实产学研的距离在不断拉近。

张宏江:

在过去五年,我们看到开源的普及,看到越来越多像杨强教授这样的学者从学术界来到产业界,同工程师、产品经理一起为用户提供优秀的产品与服务。我们看到,许多企业随着业务发展,一线工程师、产品经理,不再坐等技术成熟,而是主动跨向学术界寻求合作。

我们也看到企业工程师团队中,有学术背景或学术经历的人越来越多,他们从事完善算法,与应用场景进一步结合的工作,并且越来越多地从事新算法的研究和开发。谈起学校,如今我们不再仅谈“教学”,也谈研究——学校与研究的距离也越来越近。较十年之前,如今“产学研”之间的联系更紧密了。

举个美国的例子,OpenAI是一家企业,但它同时拥有大量杰出的研究员与工程师,软件的、硬件的;DeepMind实际上是企业的一个业务部门,但同时又是一个出色的研究团队。所以我们看到像GPT-3这样大规模的预训练模型,看到从AlphaGo到AlphaFold2在AI应用上一次又一次突破。所以我认为过去的十年,随着移动互联网的普及、随着AI的普及,产学研的距离在拉近。

02 真正的学校是那些大厂

奇绩创坛创始人兼CEO陆奇讲到企业在产学研体系里的特殊定位,大厂的经历某种意义上是一种学位。

陆奇:

比如说我要找一个GPU强的人,会看你是英伟达大学毕业的;我要找一个算法很强的,那是谷歌大学的;包括Microsoft(微软),你在微软做过三年到五年,某种意义上那是真正的学。因为大学里面其实只是学了一个基本的技能。所以从实际的角度来讲,基本上看你的real degree(真正学位)是某某大厂的一个学位。

讲到学,我觉得学的边界也在演变,从传统的研究型大学,朝着另一个方向,在一个比较大的企业或者创业公司,给人才更完整的一个环境,去打磨他们数字化能力的一些核心技能。

产学研,在数字化大赛道里,其实它的边界一直在,但我认为科学的发展和产业的发展,最终还是人类的两大目标,追求知识,我们可以对知识、对宇宙、对人类社会了解的更多,同时把知识转化成产业、转化成人类财富。

03 在公司把学术概念发扬光大,变成商业模式

现微众银行首席人工智能官、香港科技大学讲席教授杨强在过去的三十年中一直在大学里做迁移学习,直到最近,他才加入公司工作。

杨强:

我记得大概在90年代末我开始做迁移学习的时候,一个动力是因为我们当时是做传统的人工智能叫“经典规划”,在这里面最薄弱的一环就是数据,基本没有数据或者就只有一两个例子。

在公司里面就能把迁移学习的概念真正地给发扬光大,从学术概念,转变成商业模式。数据资源多的这些公司,比如OpenAI(人工智能非营利组织)、谷歌,他们可以大量的收集、聚合数据,并且利用大量的计算资源来做预训练模型,所以预训练是第一步。第二步是各个业务端,可以想像成一个网络终端,他们可以聚焦在自己的业务上,然后拿预训练模型迁移到他们各自的业务上。这样社会的分工就更加明确、更加聚焦。那么整个的商业模式就可以运作起来,通过云计算,这个能力可以释放出来。

所以这个例子给我一个启示,比方说我们花30年时间在研究一个大学里面的一个小问题,然后到了一定阶段,当所有的条件都聚合到一起的时候,就会有一个暴发期,这个暴发期就使得这个概念能够散布在各行各业,就是星星之火就可以燎原了。

04 好的软件工程师想让他的代码服务于人类所有的应用

陆奇认为,在产学研转化的过程中,至关重要的是开源开放。

陆奇:

我建议大家看一下,任何一个创业公司或者一个大厂里的产品团队,其实代码写的不多。大部分代码已经都有。如何保持开源开放的生产方式,同时把开源开放的方式更多的产业化,是我们大家面临的一个重要挑战也是机会。

因为开源开放,人的动机不是纯商业化,一个真正好的软件工程师、一个真正好的管理数据的技术团队,他其实想让他的代码和他的数据服务于人类所有的应用,他并不想让他的数据或者他的代码局限于某个企业或者局限于某个局部的应用场景。

但是这就需要,把工具的开发、社区的运营和商业化的机制,协调地融合在一起,这是我们共同面临的挑战。过去的案例可行的是一些成功的开源组织和成功的工具和社区,比如GitHub这样的社区是我们非常关注的。

05 技术需要可信、可用

杨强提到,数字化产学研在20年前和现在相比,更加重视社会责任感。

杨强:

在过去我们认为技术就是纯技术,研究就是纯研究,科学家可以把自己关在一个小屋子里算出一个结果发表,就完事。但是现在,做技术一定要带有社会责任心,我们的技术是不是可信的?是不是能够满足社会大众对隐私安全的保护?是不是能够保证在多方协作的前提下,是不是保证公平的分配最终的利益?是不是透明的?是不是可解释的模型?可信的观念有很多解释,但是它指出一点就是做研究的人同时要考虑社会责任。

第二,做的技术,我们过去往往发表,就不管了,后面靠攒引用,Citation高了,我们就认为是好的。但我觉得现在有一个变化,我们要看这个技术不仅仅是发表了,而且是可用的。

比如说金融行业,我们最近和央行做了一个反洗钱的POC,这个POC当时就发现每家银行的洗钱样本非常少,也就一两例,如果没有能力把众多银行连接起来,形成更多数据源的集合,那么是没有办法建一个自动反洗钱识别系统的。

06 开源加速了AI算法的普及

张宏江提到在AI算法普及的过程中,开源的重大意义。他表示,80年代,掀起了一轮以神经网络为主的AI浪潮,今天这一波AI浪潮实际上也是以神经网络为基础。80年代的那波浪潮很快退去,一个重要的原因就是数据不足。

张宏江:

看人工智能过去十年的发展,有一个学术界的数据库——ImageNet,对算法的发展起了非常重要的作用。

说起Hinton的深度学习算法,2006年在《自然》杂志上,当时他用他的算法做“植物识别”。但直到2012年,他和他学生做的AlexNet,在ImageNet上做的比赛,以超过第二名16%的大幅度差距获得第一名的时候,人们才意识到他这个算法里面一定有什么跟别人不同的地方。

这个算法本身的验证实际很大程度上是由于数据集本身的存在,这是个开放型的数据集,它的数据每个人都能用,而且它的标注都是用Crowd-Sourcing(众包)的方法来做的。如果没有这么一个大的开源数据库,让大家都可以在上面做实验,我们今天在很多领域其实都走不快。

今天我们熟悉的两大AI编程架构都是开源的,一是在学术研究领域常用的PyTorch,二是工业界惯用的TensorFlow。因其开源,社区成员能够对两个平台作出持续贡献与改进,AI算法得以迅速发展和普及。

随着互联网、移动互联网的发展,当大量数据可以使用时,我们在研究方法上也发生了很大改变。从思考公式与算法,到近十年开始的Deployment Driven Research(以实践为驱动的研究),每做出一个模型就立刻投入开源社区,社区成员再将这个模型部署到所要解决的问题空间。一些具体的问题,由此获得快速反馈,产生新的数据,从而帮助这个模型的原作者在一个比自身团队大得多的社区中不断验证自己的算法,从而促进了算法的飞速发展。

开源社区方面,不单要有开源算法和开源数据,更关键的是要有一群人,他们的理念与开源的主旨一致——并非希望从局部获利,而是由长期为某个产业、某项研究,或者整个人类社会的进步所驱动。

这种文化、理念、思维的培养,在我们谈的产学研、新数据时代非常重要,这恰恰是今日中国还相对落后的地方。无论大型的互联网平台公司还是小型初创企业,都已大量受惠于开源,我希望能看到今后中国的工程师、研究员、企业、政府机构、研究院,能够真正地为开源社区、开源算法、开源软件、开源的硬件架构、开源的数据集做出应有的贡献。

07 开源时代,如何解决人的思维孤岛

张宏江讲到,开源时代面临的最大挑战,不光数据本身是孤岛,而是数据孤岛本质上反映出人的思维孤岛。

张宏江:

在数字化时代,许多人的思维、做事方式还停留在互联网之前的时代。我们谈到在大数据驱动、在Deployment Driven(实践驱动)这种新的研究方法的时候,另一方面所碰到的困难是在大学和研究院,我们衡量晋升的标准依然是20年前非常传统的标准,还是数文章、看引用。

这是一个很大的矛盾。我一个多月前给清华经管学院的所有青年教师作过一次报告,专门谈到如何做有影响力的研究工作。大家其实都知道应该怎么做,都知道应该更多和开源社区合作,更多用开源数据,更多用Deployment  Driven(实践驱动)这种新的方法,但是这都需要大量工作,而且工作不是写Paper,这个工作是要把算法真正写成Code,Code经过测试能够真正的运营起来,能够把代码开放出来,让别人能够重复。这些工作某种意义上,很多是Dirty Job(脏活累活)。

你做了很多这种工作,然后在开源社区去推广这些工作,你帮别人来重复你的事业,这部分要花费大量精力,那也许我有这个精力可以多写两篇文章。这是在我看过去两年碰到的一系列问题。未来我们还将面对这些难题,在挑战中不断探索,希望能够逐渐改善。

论坛的最后,张宏江提到,改变学者的动机或是改变环境是个长期的过程,不可一蹴而就。

张宏江:

我看到一代一代年轻学者变得更加开放,更加适应于开源,适应于这种新的环境。另外,把研究作为一份职业还是把研究作为一个事业和爱好,在年轻一代里面我们看到更多是作为自己的追求和自己的事业,而不是一种职业。

基于这一切改变,长期来看我们一定能够看到好转的趋势。智源不仅把领军学者聚到一起,更重要的,是我们把数量众多的青年科学家聚到一起,围绕他们开展更多活动,为他们提供更多机会——无论是数据、计算资源,还是研究基金。也可以说把他们聚在智源,因为在学校,他们每个人都非常强,但非常小的集群,智源把他们凝聚成比较大的群体,这样他们交流起来就会更容易。

大数据来源于超大规模的城市,以城市作为一个单元,作为中心,人口聚集本身就产生了大量应用场景,产生了大量应用场景所相关的数据。所以在大数据时代,在AI时代,产学研也会逐渐形成区域特色,随着每个区域彼此的长项,擅长产业的聚集,相信我们也能看到产学研的不同聚集。

image.png

阅读 3.7k

SegmentFault 行业快讯
第一时间为开发者提供行业相关的实时热点资讯

让我们陷入困境的不是无知,而是看似正确的谬误论断。思考、否定、再思考,出家人不打诳语,撰文者不说空话。

2.6k 声望
6.1k 粉丝
0 条评论

让我们陷入困境的不是无知,而是看似正确的谬误论断。思考、否定、再思考,出家人不打诳语,撰文者不说空话。

2.6k 声望
6.1k 粉丝
宣传栏