昆仑万维发布 AI 流媒体音乐平台 Melodio；Grok-2 Beta 发布，可在 X 上生成图像丨 RTE 开发者日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01有话题的新闻

1、马斯克旗下大模型 Grok-2 Beta 推出，可在 X 上生成图像

Elon Musk 旗下的 xAI 以 Beta 版本的形式，推出了 Grok-2 和 Grok-2 mini 测试版，重点改善了推理能力。

xAI 关于 Grok-2 的博文写道：「Grok-2 的早期预览版现已推出，在此前 Grok-1.5 的基础上又向前迈出的重要一步，在聊天、编码和推理方面有明显改进。」「我们还推出了 Grok-2 mini，相关版本已经以 sus-column-r 的名称出现在 LMSYS 排行榜上。」

Musk 的人工智能公司计划在本月晚些时候通过企业 API 向开发者提供这两种模型。

应用程序研究员（显然也是 X 功能测试员）Nima Owji 声称，Grok 2 在代码生成、写作和新闻方面更胜一筹。

xAI 公司在宣布上述两个 Grok 模型之外，还向 Premium 和 Premium+ 订阅用户开放新权益，可以直接在 X 平台上生成图片。根据用户反馈，X 平台上的 Grok 文生图模型没有限制，可以创建政治人物图片，目前许多用户都在利用这一优势。不过，随着美国总统大选的临近，该公司很可能会面临增加这些功能限制的压力。(@ APPSO)

2、Clapper：开源 AI 视频工具，你只需要当导演

Clapper 是一款开源的 AI 故事可视化视频生成工具，它集成了多种生成式 AI 技术，使用户能够通过交互式、迭代和直观的过程使用 AI 创建视频，而无需专业的电影制作或 AI 工程技能。在 Clapper 中，用户无需直接编辑视频和音频文件序列，而是通过调整高级、抽象的概念，如角色、位置、天气、时间段、风格等，基于 AI Agent 来迭代故事。

Clapper 的每条轨道不是对应视频或图片素材，而是对应一个具体的工种。Clapper 内置像 GPT-4o，Claude 3.5（Sonnet）等一系列「顶流」大模型，它就像一个由业内最强的 AI 组成的剧组，用户可以通过 Clapper 将任意文本转换为时间线，并且可以直接导入剧本，为角色创造人设，甚至可以上传图片为角色设置视觉形象。（@机器之心）

3、Google 新品发布会：Pixel 9 系列整齐亮相，还有一些 AI 新花样

在 2024Google 发布会上，Google 除了发布 Pixel 9、Pixel 9 Pro、Pixel 9 Pro XL、Pixel 9 Pro Fold、Pixel Watch 3 和 Pixel Buds Pro 2 等硬件新品外，也着力于解答一个更重要的问题——AI 还能为使用者做些什么？

在活动上，Google 重点推出的 AI 新功能包括：

「Gemini Live」：Google 宣布购买 Pro 系列手机的用户，都能获取一年的 Gemini Advanced 订阅，这也是使用 Gemini Live 功能的前置条件。Gemini Live 能够实现与手机 AI 更加自然地聊天，堪称新一代谷歌手机 AI 助手的灵魂；

「Add Me」：通过该功能，一同出游的伙伴可以分开拍照，然后让 AI 集成到一张照片里，从而无需自带三脚架或向陌生人寻求帮助；

「Pixel Studio」：一款 AI 图像生成器，基于设备端模型和云 Imagen 3 文本到图像模型，与苹果即将推出的 Image Playground 应用非常相似；

「Pixel Screenshots」：该应用能够调用设备端 AI 模型 Gemini Nano 分析和整理手机截图里的内容。Google 举例称，例如用户曾经截图保存过度假民宿的门禁密码，到地方后就可以呼叫这款应用找到截图并提供信息。AI 模型也能按照用户指令分析截图内容，并与日历等 app 进行联动操作；

「Call Notes」：在完成通话后，用户可以收到软件发来的通话内容摘要，和完整的语音转写文档。为了保护隐私，这款应用完全使用端载算力运行。与苹果类似，一旦用户激活该功能，所有参与通话的人都会收到通知。（@新浪财经）

4、OpenAI 找回场子：chatgpt-4o-latest AI 模型力压谷歌 Gemini 1.5 Pro，多项跑分重夺第一

谷歌上周发布最强 Gemini 1.5 Pro 模型，在 LMSYS 的聊天机器人竞技场（Chatbot Arena）比赛中取得第一名，而 OpenAI 迅速「找回场子」，最新 chatgpt-4o-latest 模型重夺第一。

Chatbot Arena 是由伯克利大学主导团队 LMSYS Org 近日发布的一个针对大语言模型的基准平台，该平台采用匿名、随机的方式让不同的大模型产品进行对抗评测，基于国际象棋等竞技游戏中广泛使用的埃洛等级分系统，通过用户投票产生，系统每次会随机选择两个不同的大模型机器人和用户聊天，并让用户在匿名的情况下选择哪款大模型产品的表现更好一些。最后系统根据用户的选择判定大模型产品的积分，以排行榜的形式出现在首页中。

谷歌的实验性 Gemini 1.5 Pro 模型上周以 1297 分的成绩夺得第一名，这是谷歌首次登顶 LMSYS 的聊天机器人竞技场。本周 OpenAI 凭借新的 chatgpt-4o-latest 模型，以 1314 分的最高分夺回了竞技场第一名的宝座。得分显示，新版 ChatGPT-4o 在编码、指令遵循和硬提示方面都有显著提高。（@IT 之家）

5、昆仑万维发布全球首个 AI 流媒体音乐平台 Melodio

昆仑万维宣布，正式发布全球首个 AI 流媒体音乐平台 Melodio，并同步推出 AI 音乐商用创作平台 Mureka。两款产品均搭载昆仑万维新款自研 DiT（Diffusion Transformer）架构音乐大模型 Skymusic 2.0，这是业内首个能够持续稳定生成特定风格歌曲的 AI 音乐大模型。

据介绍，用户根据此刻的场景或心情在 Melodio 输入 Prompt，Melodio 便会持续生成相应风格的定制化音乐。用户在 Melodio 音乐生成与播放过程中可以随时修改输入文案，改变音乐生成内容，还能够实时查询生成的歌词，并对于喜欢的片段进行保存、分享。官方还表示，Melodio 是业内首个能够持续、稳定生成特定风格歌曲（如：中国风、Rap、DJ 等）的 AI 音乐平台。

此外，昆仑万维还发布了 AI 音乐商用创作平台 Mureka，专业艺术家与音乐爱好者均可在 Mureka 平台上创作专属音乐，并通过歌曲商店展示、收听、收藏、分享、下载，同时获得 AI 乐曲创作证明。（@IT 之家）

6、苹果即将向开发者开放 iPhone NFC 权限

苹果发布公告，宣布将面向开发者开放 iPhone 的 NFC 芯片访问权限，开发者将可以使用安全元件在其应用内使用 NFC 功能。

苹果介绍，为了将这一新解决方案整合到 iPhone 应用中，开发人员需要与 Apple 签订商业协议，请求 NFC 和安全元件权限，并支付相关费用，确保只有满足行业和监管要求，并符合苹果安全和隐私标准的开发者才能访问相关 API。

NFC 和安全元件 API 会在即将推出的 iOS 18.1 测试版中向澳大利亚、巴西、加拿大、日本、新西兰、英国和美国的开发者开放，后续还会有更多地区支持。(@ APPSO)

02有态度的观点

1、Reid Hoffman 对话 OpenAI 董事会主席：AI 处在 PC 早期，LLM 是一类新的软件，社会需要时间适应

近日，OpenAI 早期投资者&前董事会成员 Reid Hoffman 与 OpenAI 现任董事会主席& AI 初创公司 Sierra 创始人 Bret Taylor 展开了一次创业对谈。

在对话中，他们讨论了 AI 目前的发展阶段以及 LLM 对社会的潜在影响。Hoffman 和 Taylor 都认为，AI 目前的发展阶段类似于个人电脑（PC）早期的发展阶段，这意味着社会需要时间来适应这一新兴技术。Taylor 强调，LLM 作为一类新的软件，正在改变我们与软件的互动方式，与软件对话可能会成为人与软件互动的最符合人体工学的方式，因为这种互动不需要说明书，只需要进行对话。

两位业界领袖对 AI 的未来发展持乐观态度，同时也意识到了伴随技术发展而来的挑战和责任。他们认为，随着 AI 技术的进步，将会出现新的工作机会，并且 AI 将成为增强人类能力的工具，而非替代人类。

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

昆仑万维发布 AI 流媒体音乐平台 Melodio；Grok-2 Beta 发布，可在 X 上生成图像丨 RTE 开发者日报

01有话题的新闻

02有态度的观点

RTE开发者社区

引用和评论

ElevenLabs 新 TTS 模型支持音频标签；NotebookLM 前产品经理新项目曝光：将邮件日历新闻转为互动音频丨日报

一文掌握 MCP 上下文协议：从理论到实践

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AI Agent爆火后，MCP协议为什么如此重要！

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略