OpenAI 向部分用户开放 GPT-4o 高级语音模式；AI 视频生成工具 Vidu 全球上线丨 RTE 开发者日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@JLT，@鲍勃

01有话题的新闻

1、OpenAI 向部分付费订阅用户开放 GPT-4o 高级语音模式，可提供更自然实时对话

当地时间 30 日，OpenAI 宣布即日起向部分 ChatGPT Plus 用户推出全新高级语音模式的 Alpha 版本，并将于今年秋季逐步推广至所有 ChatGPT Plus 订阅用户。GPT-4o 高级语音模式具有快速反应、允许用户随时进行打断、声音堪比真人等特征，OpenAI 更称 GPT-4o 高级语音模式可以感知语音中的情感语调，包括悲伤、兴奋或歌唱。

OpenAI 发言人林赛・麦卡勒姆（Lindsay McCallum）表示：「ChatGPT 不能假冒他人的声音，包括个人和公众人物的声音，并且会阻止与预设声音不同的输出。」（@IT 之家）

此外，X 用户 TestingCatalog News 还透露了拥有视觉能力的高级语音模式的界面。

2、Vidu 视频模型开放 Sora 架构，可模仿真实物理世界

AI 初创企业生数科技宣布，旗下 AI 视频生成工具 Vidu 全球上线，可通过 Web 端 www.vidu.studio 访问。

Vidu 介绍，模型最快推理速度为 30 秒，提供两大核心功能：文生视频、图生视频，分辨率最高达 1080P。免费版可生成 4 秒视频，支持超清和一个并行任务；收费版可生成 4 秒和 8 秒视频，支持超清、商用、超清后去除水印，支持两个并行任务。

Vidu 除了能实现常见的写实等多元风格外，还新增动漫风格选项，并显著提高了画面的稳定性。Vidu 声称，能够生成影视级别的特效画面，如烟雾、炫光效果、CG 特效等等。（@爱范儿）

3、Runway Gen 3 Alpha 模型图生视频功能正式上线

昨日，Runway 宣布旗下模型 Gen 3 Alpha 上线图生视频功能。据悉，用户可以使用任何图片作为 Gen 3 Alpha 生成视频的首帧，既可以单独使用图片作为提示，也可以辅以额外的文字。免费用户可以使用 Gen 3 Alpha 生成 5 秒钟的视频，而订阅用户可以生成 10 秒钟的视频。

官方表示，该模型会自动检测上传的图片，并阻止用户使用露骨或者和政客相关的图片创建视频。（@爱范儿）

4、苹果 Apple Intelligence 为用户提供详细的隐私报告，供用户查看 AI 调用情况

苹果公司于周一发布了 iOS 18.1 和 macOS Sequoia 15.1 的首个测试版，推出了 Apple Intelligence 功能。该功能包含了基于 AI 的新特性，如重述文本和总结信息或邮件。

同时为了保障用户隐私，苹果使用了私人计算模块（PCC），利用其自有芯片进行端到端加密处理，并在处理完成后永久删除所有数据。而且用户还可以在隐私设置中查看导出 Apple Intelligence 报告，以查看 AI 都请求处理你的哪些数据。

由于报告可能包含敏感数据，用户需要通过面部识别或指纹识别验证身份才能查看。苹果默认生成这份报告，并在设备上保留 15 分钟，用户可以更改设置将保留时间延长至 7 天或完全关闭。（@小互 AI）

5、开源项目 Ollama，简化多系统大型语言模型操作与定制

ollama 是一个开源项目，旨在帮助用户轻松启动和运行包括 Llama 3.1、Mistral、Gemma 2 在内的大型语言模型。该项目支持多种操作系统，包括 macOS、Windows 和 Linux，并提供了 Docker 镜像 ollama。用户可以通过简单的命令行操作来下载、创建、运行和管理模型。项目还提供了一系列的库，如 ollama-python 和 ollama-js，以及详细的文档和示例，帮助开发者集成和定制模型。

此外，ollama 支持从 GGUF、PyTorch 或 Safetensors 格式导入模型，并允许用户通过编写 Modelfile 来自定义模型的参数和提示。该项目的安装和使用说明都非常清晰，适合各种技术水平的用户。（@AI 科技评论）

02有态度的观点

1、黄仁勋与扎克伯格探讨 AI 未来，强调智能体与开源模型

黄仁勋与扎克伯格在 SIGGRAPH 大会上深入讨论了 AI 的未来。扎克伯格认为 AI 将彻底改变社交媒体，使 Facebook 和 Instagram 成为一个统一的 AI 模型，提供个性化体验。他强调了智能体作为 AI 产品的未来形态，并支持开放生态系统以促进技术标准形成。扎克伯格还讨论了智能眼镜和混合现实设备的前景，认为 AI+眼镜是元宇宙的新方向。

黄仁勋则强调了 AI 在模拟和计算平台中的作用，特别是 NVIDIA 在 AI 领域的贡献。两人一致认为，开源 AI 模型如 Llama 3.1 将推动行业发展，支持企业和研究者构建专用 AI。他们还探讨了 AI 在不同领域的应用，包括计算机视觉和机器人技术。（@腾讯科技）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

OpenAI 向部分用户开放 GPT-4o 高级语音模式；AI 视频生成工具 Vidu 全球上线丨 RTE 开发者日报

01有话题的新闻

02有态度的观点

RTE开发者社区

引用和评论

Nooka：将书籍生成可互动音频，支持随时打断和提问；Sam Altman：语音与图形界面结合将带来创新丨日报

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

MySQL × 向量数据库：大模型时代的黄金组合实战指南

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

有了DeepSeek等AI大模型，人人都能当医生吗？