头图

MiniMax 创始人兼 CEO 闫俊杰接受了媒体“晚点对话”的采访,在采访中他表示:
“千万不要用上一代移动互联网产品方法论来思考新产品。”
“中国大部分公司,不管创业公司还是大厂,都还在用做推荐系统的方法来做大模型产品。”
“更好的模型可以导向更好的应用,但更好的应用和更多用户并不会导向更好的模型。”
“ChatGPT 的 DAU 是 Claude 的 50 倍到 100 倍,但它们的模型其实差不多。”

在明确了 “智能水平的提升,没那么依赖很多用户” 后,闫俊杰下定了决心,认为MiniMax最重要的目标不是增长,也不是收入,而是 “加速技术迭代”。于是1月15日,MiniMax 发布了首个开源模型——MiniMax-01 系列。
以下为媒体“晚点对话”与MiniMax 创始人兼 CEO 闫俊杰的对话(有删节)

晚点:你们发布 MiniMax-01 系列新模型后,得到了什么有意思的反馈?
闫俊杰:技术人员比较关注的是,第一次有一个很大的模型没有完全用传统的 Transformer 架构,架构层也可以创新。而一些非算法的合作伙伴和朋友说,觉得我们好像有点上道了,开始意识到要做技术品牌了,合作起来也少了不开源导致的各种限制。

晚点:那你们真的上道了吗?
闫俊杰:这是我们第一个开源系列模型,本质上两个原因:第一是我们认为真正有价值的事,不是当前做得怎么样,而是技术进化速度。而开源会加速技术进化,做得好的地方有鼓励,不好的地方会有很多批评,外面的人也会有贡献,这是我们开源的最大驱动力。第二是,过去两三年,我们做得特别不好的一件事儿是,对技术品牌没有很深的认知。技术品牌之所以重要,本质也是因为这个行业最大的驱动力是技术进化。这需要算力、数据、钱,也需要足够好的人。

晚点:为什么没有更早开源?
闫俊杰:第一次创业,很多经验不具备。如果可以重新选,应该第一天就开源。如果我是 OpenAI,我今天都应该开源,因为它的核心能力已经不是模型比 Claude 或 Gemini 好多少,而是 ChatGPT 的品牌与心智。我们这次开源,也不会自己藏一个更好的东西,这没有意义,所有模型一年之后都会落后。我们的通用模型也会持续开源。

晚点:不是用户越多,模型能力就提升越快——去年这个观点几乎没人信。
闫俊杰:这个事要分两层看:一是模型是产品出现的驱动力。比如去年有很多视频产品,这是因为有了更强的视频模型。但模型却不是基于用户反馈和数据迭代才变好的。Claude 3.5 Sonnet 的代码能力很好或市面上的视频模型很强,不是因为之前已经有了很大的编程或视频 AI 产品,而是先定了一个技术 benchmark,才做到的。所以,更好的模型可以导向更好的应用,但更好的应用和更多用户并不会导向更好的模型。这个现象的底层原理是,在日常使用中,模型比大部分用户更聪明,大部分用户的 query(查询)其实没有模型自己模拟得好。

晚点:这个误区让整个行业走了什么弯路?
闫俊杰:为了有更多用户,就花大量的钱来买流量。更核心的是,中国大部分公司,不管创业公司还是大厂,都还在用做推荐系统的方法来做大模型产品。比如一个内容产品,你没法明确知道什么会火,所以就要大量做 AB Test,这是高效的。但这个逻辑到了模型里,就变成不同研究员去尝试不同算法,在不同 feature(功能)上做不同实验,不行的话再累加。这不是做 AGI 的方式。

晚点:什么才是才是更合适的方式?
闫俊杰:应该非常清晰地定义模型能力分级,然后搞清楚每一代提升,需要什么样的算法、数据和推理过程,通过技术手段来逼近定义好的指标。

晚点:你什么时候有了这个认知的?这和你们这次更新的关系是什么?
闫俊杰:去年 3、4 月。我们想清楚之后,就干了几件事儿。第一是,技术和产品要分开,技术就是要不断提升上限,这需要定义好下一代能力。比如为什么这次用了全新架构,本质是因为我们认为 long context(长上下文)很重要。第二是,不要认为有产品之后模型就会变好,产品的目的不是让模型变好,它就是一个商业化产品。真正需要思考的是怎么更好满足用户。

晚点:这次 MiniMax-01 系列更新,技术博客的标题用了 “新架构开启 Agent 时代”,为什么 Agent 是一个重要目标?你怎么定义 Agent?
闫俊杰:有两个思考路径:一是,AI 该往哪个方向变得更强?二是,变强之后,对人类社会能产生哪些有益的变化?那显然很重要的一件事是能处理复杂任务,一个标志可能是多步,它可以是 o1 这样单次输出多步,也可以是通过一个单 Agent 拆成多步,还可以像 Anthropic 定义的 workflow 那样,是更复杂的多 Agent 之间的协同。如果再定义一下复杂任务,我的理解就是在专业领域能到专业人士的水平。

晚点:去年你说,当时没人做出成功的 Agent 应用,是因为大模型能力还不够强。现在 MiniMax-01 说 “开启 Agent 时代”,是哪里变强了?
闫俊杰:这有两层,一是架构,二是能力。架构层面,我们现在其实已经做到了,因为它是可以高效、快速地处理非常长的 context(上下文)。Long context 重要,是因为 AI 很难像人那样感受到时间的流逝,这需要处理越来越长的记忆。对单 Agent,提升互动质量的一个核心是记更多东西。多 Agent 则涉及相互通讯,比如 Anthropic 定义了一个 Agent 间的通讯协议叫 MCP(Model Context Protocol,模型上下文协议),那个通讯量非常长,所以也需要处理长 context 的能力。在能力层面,我们其实还有很多可以提升的地方,比如 AI 使用工具的能力、规划能力,我们这个模型还没打磨好。但这些能力都有很多标准 benchmark(基准),可以慢慢实现。

晚点:你最开始提到,这个架构不完全是 Transformer,那它是什么?
闫俊杰:标准 Transformer 里有几个模块,我们是把其中一个最重要的 attention(注意力机制),从原来的平方复杂度的注意力变成了线性的注意力。
晚点:它其实是 Transformer 一个比较大的变体?
闫俊杰:可以这么理解。

晚点:Google 的 Gemini 之前就用到了线性注意力机制,MiniMax-01 和 Gemini 的线性注意力的异同是什么?
闫俊杰:我认为 Google 今年会更强,因为它同时掌握 TPU(Google 自研的 AI 芯片) 、训练框架(TensorFlow)和算法,可以一起优化。所以 Google 做这件事相对简单一点。而我们不能自己定制 GPU,只能在一个标准硬件上去做,这就会更复杂。

晚点:为什么 MiniMax-01 面向 Agent,却不是一个 o1 方向的模型?o 系列被认为对提升 Agent 能力很有帮助。
闫俊杰:因为我们需要把每一步做扎实。其实做一个看上去像 o1 的东西没那么难,蒸馏几千条 o1 数据就可以了。我们做过这样的实验,最近也有不少这样的学术论文,这是一个业内共识。但我们不太需要说自己有个 o1,然后发个新闻稿,我们现在的业务也不依赖于 o1 这类模型。

晚点:你们下一版模型的编程能力提升,是用 o1 的方式来做吗?
闫俊杰:不光是 coding,还有 planning(规划)。这件事也取决于,不同任务怎么用 benchmark 来衡量,找到衡量指标,就能优化。即使是 o3,它在一些多模态 benchmark 上的分数也很低。


**GpuGeek会持续给各位AI极客提供最新、最热、最前沿的消息,欢迎大家多多关注~
GpuGeek计费灵活、使用便捷、高效协作、支持多卡!
使用请登录:gpugeek.com**


GpuGeek
1 声望0 粉丝

GpuGeek,成就AI极客!