Gemini 发布 iOS app，Live 语音聊天免费用；微信公众号上线 AI 音色克隆功能丨 RTE 开发者日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01 有话题的技术新闻

1、AI 玩《我的世界》大比拼！Claude 新版本建筑水平惊艳全网

近日，一场别开生面的 AI 能力评测在《我的世界》平台上展开，吸引了大量关注。新旧两个版本的Claude3.5Sonnet 在游戏中展开建筑 PK，展现出明显的能力差异，新版本（暂称「Sonnet3.6」）的表现尤其亮眼。

这项由开发者 adi 发起的测试被戏称为「唯一可靠的评测基准」。评测基准研究者 Aidan McLau 认为这个方法恰好满足了当前 AI 评测的需求，并指出审美能力与智力水平密切相关。该项目很快获得了开源社区的支持，相关代码已在 GitHub 上线。

测试结果显示，各大模型都展现出独特的「个性」:

Sonnet3.6 在创意性方面略胜一筹，获得 2000 多名网友的投票支持
OpenAI 的 o1-preview虽然构建速度较慢，但在还原真实建筑（如泰姬陵）时表现出色
o1-mini 则无法完成相关任务
Llama3405B建造了象征自我的「火坑上的钻石墙」
阿里的 Qwen2.5-14B 也展现出不俗实力

值得注意的是，AI 在游戏中的建造过程并不依赖视觉理解或直接控制输入设备，而是通过文本形式提供上下文并生成操作指令，类似于下盲棋。技术实现上主要依靠：

mineflayer 开源库：将 AI 生成的指令转换为可执行的 API 调用 mindcraft
开源库：提供通用提示词和示例，支持各类模型接入游戏

项目组计划将这一评测机制进一步完善，打造类似 Lmsys 竞技场的评分系统，采用 Elo 算法根据人类用户投票进行排名。据悉，完整测试环境仅需 15 分钟即可搭建完成。（@AIbase 基地）

2、昆仑万维天工大模型 Skywork 4.0 O1 版将正式启动邀请测试

昆仑万维科技股份有限公司宣布，其最新研发的天工大模型 4.0O1 版（英文名：Skywork O1）将于 2024 年 11 月 27 日启动邀请测试。

天工大模型 4.0O1 版是国内首款具有中文逻辑推理能力的 o1 模型，它不仅在模型输出上内生了思考、计划、反思等能力，而且在标准评测集上，其推理能力相较于基座模型有了大幅上升，实现了模型推理能力的本质提升。

天工大模型 4.0O1 版包括两款模型：一款是基于开源 Llama3.18B 的开源模型，旨在加速国内开源社区复现 o1 的进程；另一款是进阶能力更强版的天工大模型 4.0O1 版，将在天工上线并开放测试和使用。（@AIbase 基地）

3、月之暗面发布 k0-math 数学推理模型

Kimi 发布了其新一代数学推理模型 k0-math，该模型在多个数学基准测试中展现出了卓越的性能，其数学能力可以与 OpenAI 的 o1 系列模型相媲美。

在中考、高考、考研以及入门级竞赛题的 MATH 测试中，k0-math 的初代模型成绩超过了 o1-mini 和 o1-preview 模型。在更高难度的 OMNI-MATH 和 AIME 竞赛级数学题库中，k0-math 的表现也达到了 o1-mini 最高成绩的 90% 和 83%。

此外，Kimi 探索版通过强化学习技术在搜索体验上取得了创新，特别是在意图增强、信源分析和链式思考三大推理能力上实现了突破。

Kimi 的创始人杨植麟博士表示，k0-math 模型和更强大的 Kimi 探索版将在未来几周内陆续上线 Kimi 网页版和 Kimi 智能助手 app，旨在帮助用户解决更具挑战性的数学问题和搜索调研任务。(@APPSO)

4、Grok-3 疑似证明黎曼假设，已被暂停训练

马斯克 xAI 实验室的研究员 Hieu Pham 在 X 上发文称其开发的人工智能模型 Grok-3 已经证明了数学界长期以来悬而未决的「黎曼猜想」。

「黎曼猜想」由德国数学家波恩哈德·黎曼于 1859 年提出，它是数学中一个重要而著名的未解决问题，被誉为「猜想界皇冠」，多年来吸引了许多杰出数学家的关注和努力。

这一消息引起了广泛关注，因为如果证明被确认为正确，这将是一个极其重大的数学突破。

作为预防措施，团队决定暂停对 Grok-3 的进一步训练，以检查其证明的正确性。并且，如果证明确实无误，他们计划不再继续训练该 AI，因为担心其过于高级的智能可能对人类构成潜在威胁。

不过从评论区用户的反馈来看，这似乎只是一个「很幽默的玩笑」。(@APPSO)

5、英国运营商推出反诈黑科技！AI「奶奶」出马，专坑电话诈骗犯！

英国移动运营商 Virgin Media O2 日前推出了一项创新的反诈骗技术——一个名为「Daisy」的 AI 虚拟奶奶，专门设计用来应对日益猖獗的电话诈骗。这位虚拟奶奶的唯一任务，就是接听诈骗电话并尽可能拖住骗子的时间。

当诈骗分子拨打运营商设置的特定号码时，这位「难以与真人区分」的 AI 机器人就会接听电话。据 O2 透露，他们利用多项前沿 AI 技术和模型训练了这位听起来像老年女性的聊天机器人，著名的反诈 YouTuber Jim Browning 也参与了训练过程。

整个通话过程完全自动化：AI 会实时监听并将来电者的语音转换为文字，随后通过定制的大语言模型和角色性格层生成回应，最后再经由 AI 语音合成模型转化为自然的对话语音。这一切都在实时进行，无需人工干预。

虽然 Daisy 听起来像是一位容易上当的老年人，但她实际上是诈骗分子的噩梦。她可能会漫无边际地讲述孙子们的故事或自己的兴趣爱好，表现出对技术的一无所知，或者提供一些毫无用处的虚假银行信息。不管采用哪种方式，她的目的只有一个：耗费诈骗者的时间，让他们无暇去骚扰真实的受害者。

在一段演示视频中，Daisy 的表现令人忍俊不禁：她会问「网址是不是要输入三个 W 再加一个点？」，抱怨自己的屏幕上只能看到她的猫咪 Fluffy 的照片，然后慢慢转向一个永无止境的故事。这让诈骗者终于忍无可忍，气急败坏地说「你是专门来烦人的吧」，「都快一个小时了！」（@AIbase 基地）

02 有亮点的产品

1、谷歌 Gemini 发布 iOS 版 App，live 语音聊天免费用！

近日，谷歌为旗下的 Gemini 聊天机器人发布了独立的 iOS 版 app，说其「独立」，是因为此前 iOS 用户只能在谷歌 app 中的 Gemini 选项卡中使用 Gemini。

除了正常的文本聊天对话外，新发布的独立应用还支持另外两种模式：图片和语音。用户可以现拍一张照片或从相册添加一张图片，然后发送给 Geimini 进行聊天。同时，iOS 端的 Gemini 应用也支持文生图，输入你希望生成的图片描述，即可生成对应的图片。

语音模式则是 Gemini 一大亮点，谷歌官方称该功能为 Gemini Live，其实就是类似于 ChatGPT 语音模式的交互式对话功能，允许用户通过语音与 AI 进行自然对话。值得一提的是，Gemini Live 和 ChatGPT 的高级语音模式一样，也支持随时打断，这一点使得对话体验更加自然流畅。Gemini Live 功能在此前仅在 Android app 上可用（编者注：iOS 更换语言为英文后可以启用 Live）。

图片和语音功能所有用户均可使用。（@AI 信息 Gap）

2、Magic Quill 重新定义 AI 图像编辑！双画笔交互模式获赞精准度惊人

近期备受关注的 AI 图像编辑工具 Magic Quill 凭借其独特的交互设计，在业内引发热议。该工具最大的亮点在于创新性地引入了「双画笔系统」，让用户能够通过增减画笔的灵活组合，实现前所未有的精准编辑体验。

Magic Quill 的核心优势在于其直观且高效的操作方式：

- 增加画笔： 用于添加新的图像元素

- 删减画笔： 用于移除不需要的部分

- 组合使用： 两种画笔可以配合使用，实现更精细的编辑效果（@AIbase 基地）

3、阿里通义实验室推出了代码模式，可一句话帮你生成应用

通义代码模式让用户能够通过简单的日常语言指令生成各种应用，包括小游戏和数据图表等。用户可访问通义网页版，点击「代码模式」开始体验全新交互方式。代码模式基于 Qwen2.5-Coder 开发，提升了 AI 编程性能和效率。（ @AIbase 基地）

4、微信公众号上线 AI 音色克隆功能

微信公众号版本 2.29.1 更新了新功能：朗读音色。

点击推文的「听全文」功能时，听到的不再是那个永远跟其他人一样，相同的男声。而是，AI克隆的作者的声音。
微信会用作者的声音，来为读者朗读出这篇文章。
点开以后「朗读音色」功能后，会有一个系统默认的音色，用户也可以创建自己的音色。
点击创建新的音色，就会进入到一个新页面，会让用户现场朗读一句话。甚至会从用户的实际文章中抽取一些片段来让用户读，非常的有意思。
克隆好的声音与真实声音非常相近，但仍会存在有一些TTS 的惯常情绪问题。（@数字生命卡兹克）

03 有态度的观点

1、Kimi 创始人杨植麟：Scaling laws 依然有效强化学习是重点

月之暗面 Kimi 发布新一代数学推理模型 k0-math 及 Kimi 探索版，计划分批上线网页版和 APP。

创始人杨植麟强调强化学习在 AI 发展中的重要性，「AI 领域正在经历新一轮技术范式的变化。基于强化学习、合成数据和思维链的新技术，可以解决高质量数据缺乏的问题，将提升 AI 在各个领域和场景的推理能力和智能水平上限。」

杨植麟认为 Scaling laws 依然有效，但需更好的方法。「所有的好算法都是跟 Scaling 做朋友，如果你的算法能够释放 Scaling 的潜力，它就会持续变得更好。」他提出大模型需提升思考能力，数学是锻炼此能力的理想场景。因为杨植麟认为这是最适合锻炼 AI 思考能力的场景，是个不断思考不断试错的过程，而且不需要跟外界进行交互。

「AI 接下来最重要的是思考和交互这两个能力。思考的重要性远大于交互，不是说交互不重要，而是我觉得思考会决定上限，交互是一个必要条件。」（@极客公园）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

材来源官方媒体/网络新闻

Gemini 发布 iOS app，Live 语音聊天免费用；微信公众号上线 AI 音色克隆功能丨 RTE 开发者日报

01 有话题的技术新闻

02 有亮点的产品

03 有态度的观点

RTE开发者社区

引用和评论

腾讯推出端到端语音通话模型「混元 Voice」，1.6 秒响应；实时转录工具集体爆发丨日报

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

MySQL × 向量数据库：大模型时代的黄金组合实战指南

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？