开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01 有话题的技术新闻
1、AI 玩《我的世界》大比拼!Claude 新版本建筑水平惊艳全网
近日,一场别开生面的 AI 能力评测在《我的世界》平台上展开,吸引了大量关注。新旧两个版本的Claude3.5Sonnet 在游戏中展开建筑 PK,展现出明显的能力差异,新版本(暂称「Sonnet3.6」)的表现尤其亮眼。
这项由开发者 adi 发起的测试被戏称为「唯一可靠的评测基准」。评测基准研究者 Aidan McLau 认为这个方法恰好满足了当前 AI 评测的需求,并指出审美能力与智力水平密切相关。该项目很快获得了开源社区的支持,相关代码已在 GitHub 上线。
测试结果显示,各大模型都展现出独特的「个性」:
- Sonnet3.6 在创意性方面略胜一筹,获得 2000 多名网友的投票支持
- OpenAI 的 o1-preview虽然构建速度较慢,但在还原真实建筑(如泰姬陵)时表现出色
- o1-mini 则无法完成相关任务
- Llama3405B建造了象征自我的「火坑上的钻石墙」
- 阿里的 Qwen2.5-14B 也展现出不俗实力
值得注意的是,AI 在游戏中的建造过程并不依赖视觉理解或直接控制输入设备,而是通过文本形式提供上下文并生成操作指令,类似于下盲棋。技术实现上主要依靠:
- mineflayer 开源库:将 AI 生成的指令转换为可执行的 API 调用 mindcraft
- 开源库:提供通用提示词和示例,支持各类模型接入游戏
项目组计划将这一评测机制进一步完善,打造类似 Lmsys 竞技场的评分系统,采用 Elo 算法根据人类用户投票进行排名。据悉,完整测试环境仅需 15 分钟即可搭建完成。(@AIbase 基地)
2、昆仑万维天工大模型 Skywork 4.0 O1 版将正式启动邀请测试
昆仑万维科技股份有限公司宣布,其最新研发的天工大模型 4.0O1 版(英文名:Skywork O1)将于 2024 年 11 月 27 日启动邀请测试。
天工大模型 4.0O1 版是国内首款具有中文逻辑推理能力的 o1 模型,它不仅在模型输出上内生了思考、计划、反思等能力,而且在标准评测集上,其推理能力相较于基座模型有了大幅上升,实现了模型推理能力的本质提升。
天工大模型 4.0O1 版包括两款模型:一款是基于开源 Llama3.18B 的开源模型,旨在加速国内开源社区复现 o1 的进程;另一款是进阶能力更强版的天工大模型 4.0O1 版,将在天工上线并开放测试和使用。(@AIbase 基地)
3、月之暗面发布 k0-math 数学推理模型
Kimi 发布了其新一代数学推理模型 k0-math,该模型在多个数学基准测试中展现出了卓越的性能,其数学能力可以与 OpenAI 的 o1 系列模型相媲美。
在中考、高考、考研以及入门级竞赛题的 MATH 测试中,k0-math 的初代模型成绩超过了 o1-mini 和 o1-preview 模型。在更高难度的 OMNI-MATH 和 AIME 竞赛级数学题库中,k0-math 的表现也达到了 o1-mini 最高成绩的 90% 和 83%。
此外,Kimi 探索版通过强化学习技术在搜索体验上取得了创新,特别是在意图增强、信源分析和链式思考三大推理能力上实现了突破。
Kimi 的创始人杨植麟博士表示,k0-math 模型和更强大的 Kimi 探索版将在未来几周内陆续上线 Kimi 网页版和 Kimi 智能助手 app,旨在帮助用户解决更具挑战性的数学问题和搜索调研任务。(@APPSO)
4、Grok-3 疑似证明黎曼假设,已被暂停训练
马斯克 xAI 实验室的研究员 Hieu Pham 在 X 上发文称其开发的人工智能模型 Grok-3 已经证明了数学界长期以来悬而未决的「黎曼猜想」。
「黎曼猜想」由德国数学家波恩哈德·黎曼于 1859 年提出,它是数学中一个重要而著名的未解决问题,被誉为 「猜想界皇冠」,多年来吸引了许多杰出数学家的关注和努力。
这一消息引起了广泛关注,因为如果证明被确认为正确,这将是一个极其重大的数学突破。
作为预防措施,团队决定暂停对 Grok-3 的进一步训练,以检查其证明的正确性。并且,如果证明确实无误,他们计划不再继续训练该 AI,因为担心其过于高级的智能可能对人类构成潜在威胁。
不过从评论区用户的反馈来看,这似乎只是一个「很幽默的玩笑」。(@APPSO)
5、英国运营商推出反诈黑科技!AI「奶奶」出马,专坑电话诈骗犯!
英国移动运营商 Virgin Media O2 日前推出了一项创新的反诈骗技术——一个名为「Daisy」的 AI 虚拟奶奶,专门设计用来应对日益猖獗的电话诈骗。这位虚拟奶奶的唯一任务,就是接听诈骗电话并尽可能拖住骗子的时间。
当诈骗分子拨打运营商设置的特定号码时,这位「难以与真人区分」的 AI 机器人就会接听电话。据 O2 透露,他们利用多项前沿 AI 技术和模型训练了这位听起来像老年女性的聊天机器人,著名的反诈 YouTuber Jim Browning 也参与了训练过程。
整个通话过程完全自动化:AI 会实时监听并将来电者的语音转换为文字,随后通过定制的大语言模型和角色性格层生成回应,最后再经由 AI 语音合成模型转化为自然的对话语音。这一切都在实时进行,无需人工干预。
虽然 Daisy 听起来像是一位容易上当的老年人,但她实际上是诈骗分子的噩梦。她可能会漫无边际地讲述孙子们的故事或自己的兴趣爱好,表现出对技术的一无所知,或者提供一些毫无用处的虚假银行信息。不管采用哪种方式,她的目的只有一个:耗费诈骗者的时间,让他们无暇去骚扰真实的受害者。
在一段演示视频中,Daisy 的表现令人忍俊不禁:她会问「网址是不是要输入三个 W 再加一个点?」,抱怨自己的屏幕上只能看到她的猫咪 Fluffy 的照片,然后慢慢转向一个永无止境的故事。这让诈骗者终于忍无可忍,气急败坏地说「你是专门来烦人的吧」,「都快一个小时了!」(@AIbase 基地)
02 有亮点的产品
1、谷歌 Gemini 发布 iOS 版 App,live 语音聊天免费用!
近日,谷歌为旗下的 Gemini 聊天机器人发布了独立的 iOS 版 app,说其「独立」,是因为此前 iOS 用户只能在谷歌 app 中的 Gemini 选项卡中使用 Gemini。
除了正常的文本聊天对话外,新发布的独立应用还支持另外两种模式:图片和语音。用户可以现拍一张照片或从相册添加一张图片,然后发送给 Geimini 进行聊天。同时,iOS 端的 Gemini 应用也支持文生图,输入你希望生成的图片描述,即可生成对应的图片。
语音模式则是 Gemini 一大亮点,谷歌官方称该功能为 Gemini Live,其实就是类似于 ChatGPT 语音模式的交互式对话功能,允许用户通过语音与 AI 进行自然对话。值得一提的是,Gemini Live 和 ChatGPT 的高级语音模式一样,也支持随时打断,这一点使得对话体验更加自然流畅。Gemini Live 功能在此前仅在 Android app 上可用(编者注:iOS 更换语言为英文后可以启用 Live)。
图片和语音功能所有用户均可使用。(@AI 信息 Gap)
2、Magic Quill 重新定义 AI 图像编辑!双画笔交互模式获赞 精准度惊人
近期备受关注的 AI 图像编辑工具 Magic Quill 凭借其独特的交互设计,在业内引发热议。该工具最大的亮点在于创新性地引入了「双画笔系统」,让用户能够通过增减画笔的灵活组合,实现前所未有的精准编辑体验。
Magic Quill 的核心优势在于其直观且高效的操作方式:
- 增加画笔: 用于添加新的图像元素
- 删减画笔: 用于移除不需要的部分
- 组合使用: 两种画笔可以配合使用,实现更精细的编辑效果(@AIbase 基地)
3、阿里通义实验室推出了代码模式,可一句话帮你生成应用
通义代码模式让用户能够通过简单的日常语言指令生成各种应用,包括小游戏和数据图表等。用户可访问通义网页版,点击「代码模式」开始体验全新交互方式。代码模式基于 Qwen2.5-Coder 开发,提升了 AI 编程性能和效率。( @AIbase 基地)
4、微信公众号上线 AI 音色克隆功能
微信公众号版本 2.29.1 更新了新功能:朗读音色。
- 点击推文的「听全文」功能时,听到的不再是那个永远跟其他人一样,相同的男声。而是,AI克隆的作者的声音。
- 微信会用作者的声音,来为读者朗读出这篇文章。
- 点开以后「朗读音色」功能后,会有一个系统默认的音色,用户也可以创建自己的音色。
- 点击创建新的音色,就会进入到一个新页面,会让用户现场朗读一句话。甚至会从用户的实际文章中抽取一些片段来让用户读,非常的有意思。
- 克隆好的声音与真实声音非常相近,但仍会存在有一些TTS 的惯常情绪问题。(@数字生命卡兹克)
03 有态度的观点
1、Kimi 创始人杨植麟:Scaling laws 依然有效 强化学习是重点
月之暗面 Kimi 发布新一代数学推理模型 k0-math 及 Kimi 探索版,计划分批上线网页版和 APP。
创始人杨植麟强调强化学习在 AI 发展中的重要性,「AI 领域正在经历新一轮技术范式的变化。基于强化学习、合成数据和思维链的新技术,可以解决高质量数据缺乏的问题,将提升 AI 在各个领域和场景的推理能力和智能水平上限。」
杨植麟认为 Scaling laws 依然有效,但需更好的方法。「所有的好算法都是跟 Scaling 做朋友,如果你的算法能够释放 Scaling 的潜力,它就会持续变得更好。」他提出大模型需提升思考能力,数学是锻炼此能力的理想场景。因为杨植麟认为这是最适合锻炼 AI 思考能力的场景,是个不断思考不断试错的过程,而且不需要跟外界进行交互。
「AI 接下来最重要的是思考和交互这两个能力。思考的重要性远大于交互,不是说交互不重要,而是我觉得思考会决定上限,交互是一个必要条件。」(@极客公园)
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。