原创 潘笃驿 Datawhale
Datawhale干货
亲测:潘笃驿,港科大(广州),Datawhale成员
今年6月,智谱AI的最新版大模型 GLM-4-Flash 上线, API 价格为每 100 万 token 0.1 元,吸引了大量的开发者使用。
而在今日,智谱 BigModel 开放平台正式宣布:GLM-4-Flash 全部免费,同时开启限时免费微调活动。
现在国内大模型的价格已经这么卷了吗?我们也在第一时间去白嫖体验了一下~
在使用的过程中我们也发现,除了API 免费之外, GLM-4-Flash 还开启了限时免费微调活动:https://open.bigmodel.cn/dev/...,有相关需求的学习者可以前往体验。
当然,大模型厂商如果只是一味地跟风卷价格战是没有意义的,想要真正长期获得开发者和用户的青睐,至少要满足三个条件:
一是模型本身性能要足够强,否则即便免费,也难以吸引并留住用户长期依赖;
二是模型 API 要足够易用, 要对微调支持友好,过分复杂的操作会劝退用户;
三是要有核心技术作为驱动和长期支撑,确保模型在不断迭代中保持竞争力,满足市场对高性能AI工具的持续需求。
白嫖体验后,我们来拆解和分析一下智谱AI BigModel开放平台 GLM-4-Flash免费的原因。
GLM-4-Flash性能超越Llama 3
或许大家对 GLM-4-Flash 这个名字有些陌生 ,其实它背后的最新基座模型就是 GLM-4 大模型。
GLM-4 大模型是智谱在今年 1 月推出的新一代基座大模型,它的性能超越了同参数量级的 Llama 3。
逻辑推理能力往往是衡量模型性能的重要标准,其决定了模型在求解数学题、完成复杂任务等方面上的能力,GLM-4-Flash 在这方面的表现非常突出,它在中英文、语义、数学、推理、代码和知识等多方面的数据集测评中,均表现出超过 Llama 3的卓越性能。
可以说无论是堪比 GPT-4 的 Function Call 函数调用能力 ,还是能够理解和使用一系列外部工具来辅助回答问题或完成任务的All Tools”能力,GLM-4-Flash 背后的 GLM-4 都有着十分不错的水平。
此外,实测下来发现,GLM-4-Flash 的生成速度也是快到飞起,高达每秒 72 token,约等于每秒115字符。
这可能也是该模型之所以叫 GLM-4-Flash 的原因之一吧。
对微调支持友好,GLM-4-Flash 简单易上手
GLM-4-Flash 本身的能力十分优秀,但有时候直接调用API还不太够用,因为很多时候我们希望大模型处理特定专业领域或公司私有业务时,由于训练语料库中缺乏相关数据,大模型可能无法满足这些特定需求。
这时就需要对大模型进行微调,即在我们的专属语料库上进行二次训练。通过微调,我们可以向大模型注入特定的新知识或交互方式,使其能够更好地应对我们的专业领域或业务场景。
微调有两种常见方法LoRA 微调和全参数微调,智谱AI大模型开放平台bigmodel上都支持,而且整个过程只需要下面三步。
具体的微调过程,我们邀请到了组织成员潘笃驿对 GLM-4-Flash 的微调进行了一番实测。
首先是LoRA 微调。
在 RolePlay 领域,我们希望通过大模型来扮演特定角色,并模仿这些角色的交互习惯,以与用户进行沉浸式互动。然而,由于大模型在训练数据中往往缺乏对特定角色交互方式的深入了解,它们在模拟角色时通常显得较为机械,难以提供真正生动的角色扮演体验。
通过智谱 AI 大模型开放平台的 LoRA 微调技术,可以以很低的成本对大模型进行微调,快速创造出属于我们自己的 AI 角色。以 Chat 嬛嬛项目为例,我们希望大模型能够在与用户的交互中,准确扮演甄嬛的人设,从而提供更逼真和持续的互动体验。
下面是微调后的互动结果,可以看到模型的表现还是相当不错的,回答基本上都符合甄嬛的设定。如果需要更强的表现效果,可以增加训练 Epoch,但要注意,过高的 Epoch 可能导致模型过度拟合,降低实际应用效果。
其次是全参数微调。
在医学问答领域,我们希望通过大模型提供专业、精准的医疗建议,能够应对复杂的医学问题。然而,大模型在原始训练数据中往往缺乏针对特定医学领域的深入知识,导致在回答医学问题时可能不够精准或详尽,难以满足用户对高质量医疗信息的需求。
相比于 LoRA 微调,全参数微调更适合当模型需要学习新的专业知识时使用。通过全参数微调,我们可以让模型在特定领域的数据上进行全面训练,使其真正掌握新的医学知识,而不仅仅是调整部分参数。这种方法使模型能够在医学问答中表现得更加权威和准确,从而快速构建出一个具备深度医学专业知识的 AI 助手,确保其在与用户互动时提供高质量、可信赖的医疗解答。
微调完之后可以看到模型的表现还是相当不错的,同样的,我们也可以通过增加训练 Epoch 来进一步提升模型效果。
由于篇幅有限,关于笃驿更加详细的微调操作,可以公众号后台回复“GLM微调" 获取。
总结来说,GLM-4-Flash 非常适合简单垂直和快速响应的任务,除了我们Datawhale成员的实测,智谱AI的官方也提供了一些案例,大家可以拿来参考:
核心技术驱动,GLM-4-Flash 背后是智谱普惠AI的愿景
为何 GLM-4-Flash 或者说背后的 GLM-4这么强?
这背后,为了使小模型具备更加强大的能力,智谱 GLM 技术团队进行了大量探索工作。
比如在预训练方面,他们引入了大语言模型进入数据筛选流程,最终获得了 10T 高质量多语言数据,数据量是 ChatGLM3-6B 模型的 3 倍以上。同时,他们采用了 FP8 技术进行高效的预训练,相较于GLM第三代模型,训练效率提高了 3.5 倍。综合以上技术升级和其他经验,GLM-4 模型具备了更强大的推理性能、更长的上下文处理能力、多语言、多模态和 All Tools 等突出能力。
本次 GLM-4-Flash 这次推理成本大幅下降也是源于智谱AI 技术的持续进步:
智谱AI通过多种方式优化大模型运行效率。开放平台采用自适应权重量化、多种并行化方式、批处理策略以及投机采样等多种方法,在推理层面实现模型的延迟降低与速度提升,更大并发量和吞吐量不仅提升了效率,而且让推理成本显著降低。
智谱此次选择把模型API免费化,这背后其实折射的是智谱普惠AI的愿景。
尽管大模型再厉害,但只有把想象力只有转化为现实的生产力才具有真正的革命性意义。智谱认为,价格是快速推动人类前往通用人工智能的必要路径,让AI更加普惠是加速AGI进程的必要使命。
比如对于企业To C产品而言,覆盖上亿用户的产品每天需要千亿Tokens的吞吐,这对于企业而言是巨大成本。这导致当前大模型的使用只能优先覆盖成本比较高的设备,而现在的大模型的成本无法支撑相对低端的大众设备。如果调用智谱AI免费的GLM-4-Flash,大模型可以覆盖到全终端、全设备。
其实智谱的普惠AI的愿景还体现在开源方面,智谱一直是开源生态的积极参与者和构建者。
比如性能强大的 GLM-4 模型发布即开源,智谱的文生视频产品清影背后的模型 CogVideoX 也在前些天免费开源,是国内同类模型的首次开源。
智谱AI:GLM-4-Flash 免费详情
GLM-4-Flash 是智谱首次开放免费 API 的大模型,支持长度达 128K 的上下文。在用户调用量上,智谱做到了原有调用用户并发不变,新用户有两个并发,还可以申请进一步提高。
无论是 API 免费开放使用,还是模型免费开源,智谱 AI 做到了优先和一大波开发者用户的双向奔赴。
是时候体验大模型的应用开发了!
点击阅读原文,开始白嫖。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。