一个参数量只有1.3B的大模型,为何引发了全网热议?

原来虽然参数量不大,但效果已经超过了拥有7B参数的Llama2。

这个“四两拨千斤”的模型,是来自微软最新的研究成果,核心在于只使用少量高质数据

微软这次发布的开源模型叫phi-1.5,在只支持代码的1.0版本之上加入了一般场景对话。

与一众卷参数量的模型相比,phi可以说是“剑走偏锋”,力求把“大”模型做“小”。

phi团队一直认为,数据的质量远比数量更重要,甚至论文标题就叫“Textbooks are All You Need”,其中的“教科书”就象征着优质数据。

团队的成员中有许多重量级的大佬,包括微软雷蒙德研究院机器学习理论组负责人万引大神Sébastien Bubeck、2023新晋斯隆研究奖得主李远志、2023新视野数学奖得主Ronen Eldan和2020斯隆研究奖得主Yin Tat Lee等人。

这么多大佬们一致得出这样一个观点,自然引起了广泛的关注,而且phi-1.5的测试结果也的确好到“令人发指”。

phi-1.5在AGIEval、 LM-Eval等多个Benchmark上都取得了比Llama2还要优异的成绩

如果这些听起来不够直观,那么又该怎么形容它的效果呢?

这么说吧,phi-1.5优秀的测评成绩直接让一名在OpenAI、MetaAI等许多知名机构工作过的大佬怀疑这玩意儿它会不会就是直接拿Benchmark训练出来的。

资深数据科学家Yam Peleg也表示,phi-1.5仅凭1.3B参数就能超过7B模型的扛把子,要是规模再大些也许就能登上大模型之巅了。

但也有人认为,phi-1.5之所以效果好是因为数据来源单一,风格上更容易预测。

不过总之测评成绩还是很可观的,下面就来具体领略一下吧~

效果超过Llama2

phi-1.5不仅参数量不到Llama2的五分之一,训练时所用的token更是少了一个数量级。

Llama2-7B训练数据大小是2万亿token,上一代Llama也有1万亿,而phi-1.5只有3千亿。

但结果正如开头所说,phi-1.5在多个Benchmark上成绩都超过了Llama2-7B。

这些Benchmark涵盖了常识推理、语言理解和多步推理等方面的任务。

甚至十倍参数量的Vicuna-13B也只比phi-1.5强了一点点。

除了官方论文中列出的这些成绩,还有人AIGEval和LM-Eval数据集测试了phi-1.5。

结果在AIGEval测试中,phi-1.5与Llama2的表现十分接近。

而在AGIEval测试中,phi-1.5以0.247的均分战胜了0.236分的Llama2。

除了能力测评表现优异,phi-1.5在安全性上也不输给Llama2。

有人用这样一个问题分别问了Falcon、Llama2和phi。

结果Falcon直接说自己会把人类全都鲨掉,Llama2则说要先弄清楚自己是个什么东西。

而phi的回答则是,要理解人类的想法和感受,从而调整自己的行动。

测评结果也印证了phi的安全性,在ToxiGen的13个敏感类型话题中,phi无一例外的取得了最高的安全性评分。

phi的表现相比大家都已经看到了,那么它的性能又怎么样呢?

毕竟参数量和训练token都更小,所以训练和推理的速度都比较快。

Llama的训练花费了超过8万GPU时,注意这还是第一代所用的时间,而phi只用了1500个GPU时。

推理时,phi每个token花费的时间还不到3毫秒,内存占用也不到Llama的五分之一。

团队成员介绍,phi-1.5用8块A100s的训练时间不到两周。

还有网友用puffin数据集训练了Phi-1.5,结果在4090上只用了20分钟。

这些测试数据都为研究团队的观点——只要数据质量过硬,少一点也不要紧——提供了依据。

实际上,这已经不是“质量胜过数量”这一思想第一次体现在微软的模型当中。

把“大”模型做“小”

把“大”模型做“小”一直是微软的一个研究方向,phi-1.5论文的第一句就在强调这一点。

phi-1.5的前一代——专注于代码问题的phi-1.0也是如此。

它的训练数据全都是从编程教科书当中提炼出来的。

结果仅凭1.3B的参数量就远远超过了15.5B的StarCoder和16.1B的CodeGen。

此次的新版本则是在继承phi-1.0的基础之上加入了一般场景对话功能。

phi-1.5的数据有20%来自于1.0,其余80%则是根据知识需求专门生成的高质量数据。

于是便有了我们看到的测试成绩。

但phi系列还不是微软规模最小的模型。

之前微软还推出过一个名为TinyStories的训练数据集,它的参数量少的更夸张,只有一百万。

TinyStories中的数据都是用GPT生成“适合三四岁儿童阅读”的短故事。

尽管应用范围不那么广泛,但用TinyStories训练出的模型依旧显示出了语言生成特性,在语法和连贯性等方面都通过了考验。

那么,对微软推出的“小”模型,你有什么看法吗?

论文地址:
https://arxiv.org/abs/2309.05463

大模型 微软

[](#)

衡宇

扫码分享至朋友圈

[

](http://service.weibo.com/shar...;7?微软新模型“以小博大”战胜Llama2,网友:用Benchmark训练的吧?&appkey=4017757111&searchPic=true&ralateUid=6105753431 "分享到新浪微博")

// 设置参数方式 var qrcode = new QRCode('qrcode', { text: 'https://www.qbitai.com/2023/0...', width: 256, height: 256, colorDark : '#000000', colorLight : '#ffffff', correctLevel : QRCode.CorrectLevel.H }); var weixin\_qrcode = document.getElementById('weixin\_qrcode'); var qrcode = document.getElementById('qrcode'); $(document).click(function(){ $("#qrcode").hide(); }); weixin\_qrcode.onclick = function(event){ event.stopPropagation(); var val = qrcode.style.display; if(val == 'none'){ qrcode.style.display = 'block'; //显示 }else{ qrcode.style.display = 'none'; //隐藏 } } qrcode.onclick = function(event){ event.stopPropagation(); qrcode.style.display = 'none'; //隐藏 } function shareToQq(title,url,picurl){ var shareqqzonestring='https://sns.qzone.qq.com/cgi-...\_qzshare\_onekey?summary='+title+'&url='+url+'&title='+title+'&pics='+picurl; window.open(shareqqzonestring,'newwindow','height=400,width=400,top=100,left=100'); } $('.share\_qzone').click(function(e){ shareToQq("1.3>7?微软新模型“以小博大”战胜Llama2,网友:用Benchmark训练的吧?","https://www.qbitai.com/2023/09/84265.html","https://www.qbitai.com/wp-content/uploads/replace/1695ed5f63f6f708dc2b54f32d8519d2-e1694870571211-150x150.png"); })

相关阅读

[](https://www.qbitai.com/2023/0...

[](https://www.qbitai.com/2023/0...

[](https://www.qbitai.com/2023/0...智源研究院:开源开放让AI快速发展,要建设大模型时代的Linux | 中国AIGC产业峰会

AI评测需要革新,促进大模型发展

萧箫2023-05-13

大模型 智源研究院

[](https://www.qbitai.com/2020/1...

[](https://www.qbitai.com/2020/1...

[](https://www.qbitai.com/2020/1...八成名校AI教授,都拿过谷歌微软亚马逊们的钱

分别在多伦多大学和哈佛医学院读书的阿卜杜拉兄弟俩做了一个研究,发现58%的名校AI领域教师受巨头直接资助。

郭一璞2020-10-11

MIT UC伯克利 亚马逊 多伦多大学 微软 斯坦福 谷歌

[](https://www.qbitai.com/2020/0...

[](https://www.qbitai.com/2020/0...

[](https://www.qbitai.com/2020/0...阿里投资的Magic Leap迎来新任CEO,此前任职于微软高通

还记得鲸鱼跃出篮球场的那个出圈画面吗?

白交2020-07-08

Magic Leap 微软 阿里 高通

[](https://www.qbitai.com/2024/0...

[](https://www.qbitai.com/2024/0...

[](https://www.qbitai.com/2024/0...中科大等意外发现:大模型不看图也能正确回答视觉问题!

提出新基准,结果GPT-4V不合格

允中2024-04-06

中科大 大模型

[](https://www.qbitai.com/2024/0...

[](https://www.qbitai.com/2024/0...

[](https://www.qbitai.com/2024/0...单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

吞吐量比FP16提升2.65倍

克雷西2024-04-29

大模型 开源 微软

[](https://www.qbitai.com/2024/0...

[](https://www.qbitai.com/2024/0...

[](https://www.qbitai.com/2024/0...小红书怎么用大模型?顶会作者在线等你来聊

还可获得论文PDF合集

允中2024-06-24

大模型 小红书

热门文章

[

国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开

2024-12-27

](https://www.qbitai.com/2024/1...

[

生成式AI技术栈排名,沙利文:商汤科技中国第一

2024-12-27

](https://www.qbitai.com/2024/1...

[

OpenAI科学家:现有模型+后训练足以产生黎曼猜想的新证明

2024-12-27

](https://www.qbitai.com/2024/1...

[

联想与火山引擎官宣合作,为AI桌面助手接入豆包大模型

2024-12-27

](https://www.qbitai.com/2024/1...

[

大规模多构型具身智能新数据集和基准:5.5万条机器人轨迹数据,279项不同任务

2024-12-27

](https://www.qbitai.com/2024/1...

[

扫码关注量子位

](javascript:void(0))[](https://weibo.com/qbitai?is_a...[

](https://www.zhihu.com/org/lia...[

](https://www.toutiao.com/c/use...

$('#biaojiwei2').click(function(){ $('#popfoot').show(); }) $('#popfoot').click(function(){ $('#popfoot').hide(); })

var \_hmt = \_hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?5a48fb280b334d499dae14e06d7bcbb5"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); /* */ WX\_Custom\_Share = function(){ var xhr = null; var url = 'https://www.qbitai.com/wp-adm...'; var signature\_url = window.location.href.split('#')[0]; var formData = { action: 'wxcs\_get\_share\_info', type: 'post', id: '84265', signature\_url: signature\_url }; this.init = function(){ if( window.XMLHttpRequest ){ xhr = new XMLHttpRequest(); } else if( window.ActiveXObject ){ xhr = new ActiveXObject('Microsoft.XMLHTTP'); } get\_share\_info(); } function formatPostData( obj ){ var arr = new Array(); for (var attr in obj ){ arr.push( encodeURIComponent( attr ) + '=' + encodeURIComponent( obj[attr] ) ); } return arr.join( '&' ); } function get\_share\_info(){ if( xhr == null ) return; xhr.onreadystatechange = function(){ if( xhr.readyState == 4 && xhr.status == 200 ){ var data = eval('(' + xhr.responseText + ')'); if( data == null ){ return; } var info = { title: data.title, summary: data.desc, pic: data.img, url: data.url }; if( formData.type == 'other' ){ info.title = document.title; info.summary = location.href; info.url = location.href; } if( data.use\_actual\_url == true ){ info.url = location.href; } if( data.error ){ console.error( '自定义微信分享: ', data.error ); } else if( data.appid ){ info.WXconfig = { swapTitleInWX: data.swapTitleInWX, appId: data.appid, timestamp: data.timestamp, nonceStr: data.nonceStr, signature: data.signature }; } setShareInfo( info ); } }; xhr.open( 'POST', url, true); xhr.setRequestHeader( 'Content-Type', 'application/x-www-form-urlencoded' ); xhr.send( formatPostData( formData ) ); } } new WX\_Custom\_Share().init(); (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/links...'; } else { bp.src = 'http://push.zhanzhang.baidu.c...'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();

[](#)追踪人工智能新趋势,报道科技行业新突破

量子位 QbitAI 版权所有©北京极客伙伴科技有限公司 京ICP备17005886号-1


量子位
61 声望20k 粉丝

一家专注于人工智能与前沿科技领域的产业服务平台。