原创 Datawhale Datawhale
Datawhale发布
发布:智谱AI,最新旗舰级模型
自 ChatGPT 以来, OpenAI 每次发布的新模型都成为了全球科技公司追逐和对标的目标。
但仔细观察会发现,想要短时间内追赶或对标 OpenAI 的最新模型变得越来越难。
- 23年上半年,追赶 ChatGPT 相对容易,一时间造成了国内的百模大战;
- 23年下半年,追赶 GPT-4 比较困难,国内不到十家大厂或大模型公司做到;
- 24年上半年,追赶 GPT-4 Turbo 非常困难,国内不超过5家大厂或大模型公司做到;
- 24 下半年,追赶GPT-4o 极其困难,国内罕见大厂或大模型公司做到。
就在此时,智谱AI BigModel开放平台发布了一大波新模型:
语言基座模型 GLM-4-Plus、文生图模型 CogView-3-Plus、图像/视频理解模型 GLM-4V-Plus、视频生成模型 CogVideoX。
体验地址:
https://zhipuaishengchan.data...
这些模型可以分为语言基座模型和多模态两大类,背后透露出了Bigmodel开放平台的全面且强大的实力,以及迈向AGI的野心。
基座模型:GLM-4-Plus 性能比肩 GPT-4o
语言文本能力是大模型最基础的能力,也是和人自然交流不可获取的能力。
GLM-4-Plus 在语言理解、指令遵循、长文本处理等方面性能得到全面提升
在语言文本能力评测上,GLM-4-Plus 比肩 GPT-4o 及 405B 参数量的 Llama3.1。
GLM-4-Plus 的长文本能力也很优秀,比肩GPT-4o,超过Gemini 1.5 Pro和 Claude Sonnet 3.5。
在实际体验中,GLM-4-Plus 的回答非常牛!
它能答对我国但凡看过春晚就人人皆知的问答,快来用它测一测你身边有没有“行走的50万”(手动狗头)。
GLM-4-Plus 已经支持 API 调用;各位学习者可以前往体验。
多模态模型 :理解和生成统一,迈向AGI
智谱这次更新了好几个多模态模型,可以分为两类:多模态理解模型、多模态生成模型。
先说这个非常强大的多模态理解模型——图像/视频理解模型 GLM-4V-Plus。
它具备卓越的图像理解能力以及基于时间感知的视频理解能力。
在图像和视频理解能力方面,GLM-4V-Plus 和 GPT-4o 不相上下,它可以轻松理解网页内容,并将其转换为 html 代码。
Vision capabilities
GLM-4V-Plus 能够理解并分析复杂的视频内容,同时具备时间感知能力。在上线智谱的 BigModel大模型开放平台( bigmodel.cn )后,将提供国内首个通用视频理解模型 API 。
Video capabilities
下面具体来看一个视频理解的案例,在一段“菲律宾炸鱼”视频片段中,GLM-4V-Plus 凭借模型强大的视频分析能力+ 推理能力正确对答了问题,还“看懂”了视频的笑点。
<iframe class="video_iframe rich_pages" data-vidtype="2" data-mpvid="wxv_3625738192759881734" data-cover="http%3A%2F%2Fmmbiz.qpic.cn%2Fsz_mmbiz_jpg%2FvI9nYe94fsG64QQcRcdAa8HsxDW1Dvmrl9haJhepMxaB54O2u45Fe4QPlib1icicdM8tjoP4iaq7ibiaIHmMibjkibsYpA%2F0%3Fwx_fmt%3Djpeg" allowfullscreen="" frameborder="0" data-ratio="1.7777777777777777" data-w="1920" style="border-radius: 4px;" data-src="https://mp.weixin.qq.com/mp/readtemplate?t=pages/video_player_tmpl&action=mpvideo&auto=0&vid=wxv_3625738192759881734"></iframe>
- 提问:这段视频描述了什么运动?
- GLM-4V-Plus:这段视频展示了一个人在跳板上进行跳水,并落在游泳池中。
- 提问:这段视频好笑的地方在哪里?
- GLM-4V-Plus:这段视频有趣的地方在于,有一个人跳进了泳池,溅起了巨大的水花。这创造了一个幽默且令人愉快的时刻,因为观众们被这个跳水的出乎意料的结果所娱乐。
再简单说下多模态生成模型:
一是文生图模型 CogView-3-Plus:它具备与当前业内最优秀的 MJ-V6 和 FLUX 等模型接近的性能。
二是视频生成模型 CogVideoX:在此前发布并开源 2B 版本后,本次它的5B 版本也正式开源,并且性能进一步增强,是当前开源视频生成模型中的最佳选择。
虽然以上智谱的多模态理解和生成模型暂时是分开的,但可以看出,智谱已经把二者都分别做到了业内最顶尖的水平。智谱的各种动作也透露出了他们正在寻求多模态理解和生成统一的技术路线——用AI理解现实世界、生成AI世界,再理解现实和AI世界......
直到有一天 AI 彻底理解和生成现实世界,但人类却彻底分不清AI和现实世界的一天,AGI 就真正到来了~
调最好的API,做最好的AI应用
大模型时代,AI 产品和应用非常内卷,2024年,要想众多AI公司中活下来、甩开对手一个大身位,必须要拼应用,这时除了应用本身之外,背后调用的大模型 API 也很重要,调用的模型越强,应用的表现也会越好。
智谱AI本次一大波GPT-4o级的语言基座+多模态模型,应用前景非常巨大。
GLM-4-Plus、 CogView-3-Plus、 GLM-4V-Plus、 CogVideoX 一套组合拳下来,能应用的场景简直太多了!
下面提供一些目前和未来非常有潜力的应用场景,仅作参考。
①智能内容审核
- 调用功能:文本分析处理、图像识别、视频分析
- 解决痛点:加速文本、图片或视频内容的审核过程,过滤违规信息,提升平台内容安全。
②个性化广告生成
- 调用功能:视频生成功能;
- 解决痛点:个性化生成广告,提升广告投放效果。
③多模态搜索引擎
- 调用功能:图像识别、视频理解
- 解决痛点:提升用户查找图片和视频信息的准确性和效率。
④智能宠物监控
- 调用功能:视频分析、动作识别
- 解决痛点:帮助宠物主人远程监控宠物行为,及时处理异常。
此外,智谱基座模型和多模态模型,还可以被用来开发工作助手、“AI家庭教师”,24小时在线的陪伴机器人......帮助视障人群开发一双“会说话会导航的眼睛”,把AI向善的意义最大程度发挥。
全面对标 OpenAI ,实力和勇气来源于自主创新
无论是最新推出的旗舰级别的基座⼤模型,还是清言视频通话功能,智谱AI都越来越像中国的 OpenAI了,这本身就是一种实力和勇气的象征。
那么智谱AI实力和勇气究竟来源于何处?
答案是自主创新,原创的世界顶尖水平的全栈⼤模型谱系,不给自己留任何短板。
我们来对比一下 OpenAI 今年的发布和智谱AI 今年的发布。
智谱AI 24年发布
OpenAI 24年发布
智谱清影
全量开放
Sora
不可体验
清影视频通话
全量开放
GPT-4o 高级版
极少内测
GLM-4-Flash
API 免费用
?
?
话又说回来,智谱AI能支持海量用户同时并发的背后,模型、产品、infra等技术实力可见一斑!
通过⼤模型赋能产品应用,链接物理世界亿级⽤⼾,智谱AI正致⼒于为千⾏百业带来持续创新与变⾰,加速迈向通⽤⼈⼯智能时代。
让机器像人一样思考,智谱AI早晚有一天会实现。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。