开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01 有话题的技术
1、腾讯混元 Game:工业级 AIGC 游戏制作引擎发布
腾讯混元发布游戏视觉生成平台,即一站式 AIGC 游戏内容生产引擎,同时推出面向工业级游戏资产生成的 AIGC 系列大模型 Hunyuan-Game。
现在,腾讯混元游戏视觉生成平台已有四大能力上线:AI 美术管线、实时画布、AI 2D 美术(包括文生图、图生图能力)、专业角色多视图生成。用户可快速将灵感概念产出为高质量的图片、3D 建模多视图。比如实时生成设计游戏角色形象、对草图和黑白稿一键上色,还能生成各种特效风格和修改材质等。
除此之外,混元游戏视觉生成团队表示,还有更多正在内部研发和测试的能力暂未上线,本次以技术报告的方式面向行业详尽展示和分享了一系列游戏图像和视频视觉生成大模型。
腾讯混元 AI 官网: https://hunyuan.tencent.com/game/home (@量子位)
2、谷歌 Veo 3 首次实现音画同步
5 月 21 日,谷歌正式发布 Veo 3。一句提示词就能 AI 打造电影质感短片,还能通过文本实现原生的音画同步生成。Veo 3 不仅能生成高质量视频,还能理解视频中的原始像素,自动生成与画面同步的对话,同时还能精准捕捉画面情绪,渲染氛围音效。
长提示词理解与事件流生成方面,Veo 3 同样出色。Veo 3 能理解长句子,完成一个完整、时间有序、逻辑清晰的小片段。生成的视频能够包含动作变化、对白插入、镜头切换、logo 渐隐等。
目前 Veo 3 仅面向美国 Ultra 订阅用户开放,定价为 249.99 美元/月。这是谷歌专为专业创作者、开发者推出的高阶会员服务。(@机器之心、@量子位)
3、腾讯新推出端到端语音通话模型——混元 Voice
5 月 21 日,腾讯新推出端到端语音通话模型混元 Voice,该模型能够实现低延迟语音通话,相比级联方案,响应速度提升超过 30%,降至 1.6 秒,拟人性和情绪应用能力也有明显提升,目前已在腾讯元宝 App 灰度上线。实时视频通话 AI 体验也将在近期推出。
腾讯云副总裁、腾讯混元大模型技术负责人王迪表示,混元正加速向智能化的深度与广度迈进,为 AI 普惠与产业升级提供坚实支撑。混元坚定拥抱开源,持续推进多尺寸、多场景的全系模型开源。(@腾讯混元)
02 有亮点的产品
1、Inkr 2.0(华人 Builder):集成实时转录与智能搜索的生产力工具
(图片来源:Inkr 官网)
Inkr 2.0 是一款实时智能转录工具,通过 AI 将音频快速转化为结构化笔记并实现智能搜索。其核心价值在于整合实时转录、语义分析和知识管理,提供端到端的内容处理工作流。目标用户主要为记者、内容创作者及高频会议参与者,解决传统转录工具延迟高、信息碎片化及检索效率低的痛点。产品通过无需注册的即时使用模式和 50%折扣策略降低体验门槛。
核心功能亮点包括:
- 毫秒级实时转录引擎,支持多语言混合输入;
- AI 增强的智能笔记模板,自动提取关键词并生成摘要;
- 跨会话的语义搜索系统,支持自然语言查询历史记录。差异化优势体现在将「转录-编辑-检索」全流程压缩至同一界面完成,相比传统工具减少 3个以上操作环节。用户体验设计强调零学习曲线,通过浮动控制栏和智能快捷键实现单手操作。
团队信息:据领英公开信息,Yifei Gao(Kaylee Gao)是 Timeless Lab 的 UX 设计主管,深度参与了 Inkr 2.0 的产品设计与上线,负责用户体验优化和产品迭代。曾在阿里巴巴集团担任 UX Designer,负责饿了么零售业务的 To B 产品体验设计。
链接:https://inkr.app(@Z Potentials、@Product Hunt)
2、字节 Pippit AI 登顶 Product Hunt,支持 AI 视频生成、数字人、产品图设计等
Pippit AI 是字节跳动推出的一款面向营销场景的 AI 智能内容创作平台,最近在 Product Hunt 榜单登顶。这款产品整合了多种功能模块,包括 AI 视频生成、数字人、产品图设计等,几乎覆盖了营销内容创作的所有环节。
从功能上看,Pippit 集成了多个领域顶级产品的核心功能,例如 VidAU 和 Creatify 的「Link to Video」功能、HeyGen 的数字人生成能力以及 LinkFox 的产品图工作室等。尤其值得一提的是,Pippit 能解析更多电商平台的产品链接,甚至可以将 OpenAI 官网转化为营销视频,展现了强大的解析能力和定制化选项。
- AI 会说话的照片:将图像转换为具有自然运动合成的逼真会说话视频;
- 输入网页链接,点击几下,可生成多个视频;
- 定制专属数字人,支持多种语言,能够快速将脚本转换为视频;
- 支持替换商品背景图和批量创作图片。
体验链接:https://pippit.capcut.com/(@新智讯、@Product Hunt)
3、Shadow:实现会议转录、任务分配与执行追踪一体化
Shadow 是一款无须机器人介入的 AI 会议助手,实现会议转录、任务分配与执行追踪一体化。
Shadow 定位为无侵入式 AI 会议效率工具,核心价值在于通过后台自动化处理会议内容,将讨论直接转化为可执行任务,消除传统会议记录与跟进的断层。目标用户聚焦于销售、项目管理及咨询等高频会议场景的专业人士,解决机器人介入导致的会议干扰、隐私顾虑及手动任务分配效率低下等痛点。市场机会源于混合办公模式下企业对非侵入式协作工具的需求增长。
产品核心功能包括:
- 无机器人参会模式下自动转录与实时摘要生成;
- AI 自动识别行动项并关联 CRM/协作工具分配任务;
- 端到端加密的本地语音处理保障隐私安全;
- 差异化优势体现在「隐形」工作模式与全链路自动化,相比同类工具减少 60%人工操作步骤。
网站链接:https://www.shadow.do(@Z Potentials、@Product Hunt)
4、Audible 正利用 AI 进行文本转音频的制作,并计划推出 AI 翻译服务
亚马逊旗下的有声书服务平台 Audible 日前宣布,将通过与部分出版社的合作,利用人工智能(AI)技术将纸质书与电子书转化为 AI 朗读的有声书。
通过亚马逊强大的 AI 技术支持,出版社可选择超过 100 种 AI 生成的语音,包括英语、法语、西班牙语和意大利语等多种语言,并提供多样化的口音与方言选项。未来,Audible 还将逐步丰富语音库,为用户带来更定制化的聆听体验。与此同时,Audible 计划在今年晚些时候推出 AI 翻译功能的测试版,支持从英语到西班牙语、法语、意大利语和德语的文本翻译和语音翻译服务。出版商还可选择由专业语言专家审核翻译结果,以确保准确性。(@数图笔记、@AI 之星网)
03 有态度的观点
1、腾讯执行副总裁:每个企业都将成为 AI 公司
5 月 21 日,腾讯集团高级执行副总裁汤道生在「腾讯云 AI 产业应用峰会」上,发表个人演讲,其表示「每个企业都将成为 AI 公司,每个人也都能成为超级个体」。
汤道生表示,过去这一年,生成式 AI 的可用性,经历了从「量变」到「质变」的飞跃。模型深度思考能力的突破,加速了产业普及的进程。行业也从以模型预训练为主,逐步转向后训练和应用搭建为核心。
汤道生透露,通过腾讯各项业务、腾讯云发现,其各业务已经全面拥抱 AI,而各产业对大模型 API 调用量激增,从而可以发现,随着 AI 持续落地,每个企业正在成为 AI 公司每个人也正在成为 AI 加持的「超级个体」。
但在 AI 落地的同时,汤道生发现,企业和个人除了关注模型和应用之外,还会关注到「AI 是否能更简单」「AI 使用成本是否能更低」等问题。对于这些问题,汤道生则表示「恰是 AI 发展的关键」。
对此,腾讯还提出加速大模型创新、加速智能体应用、加速知识库建设、加速基础设施升级,并推动 AI 技术走进千行百业,也走进每个人的生活。
值得一提的是,4 月微软公布的 2025 年度工作趋势指数报告中,就有提到目前 AI 在人类工作中,正在发生一种不可逆转的趋势:
AI 已经令人类的工作场合发生了巨大的变化,并且一种名为「前沿公司」的组织模式正在产生。而据微软预测,未来 2-5 年内,每个公司都将会踏上「前沿公司」这一模式的路途。(@APPSO)
2、英伟达:让机器人通过「梦境」学会操作
日前,英伟达 GEAR Lab 推出「DreamGen」项目,旨在让机器人能减少对现实数据的依赖,并通过 AI 视频世界模型与现实结合,从而让机器人自主学会新的任务。
据悉,DreamGen 的核心思想是通过成熟的 AI 视频世界模型(OpenAI 的 Sora、Google 的 Veo 等),与现实世界中的视频进行虚拟合成,从而创建大规模逼真的训练数据。
官方介绍,DreamGen 通过微调模型、虚拟数据合成、从虚拟数据中动作提取、策略训练四个步骤,进行训练数据的生成。
值得一提的是,DreamGen 还可以增强不同机器人系统以及不同策略架构,在接触密集型任务中的表现,做到了零样本行为泛化和零样本环境泛化。
目前,DreamGen 已公布了其技术报告,点击下方链接获取详细版!
DreamGen 官网:
https://research.nvidia.com/labs/gear/dreamgen/
arxiv:
https://arxiv.org/pdf/2505.12705 (@APPSO)
04 有看点的活动
1、Agentland Fortnight | Agent 游戏开发工作坊 Vol.3 开始招募!
来自清深 Agentland 实验室:我们是清华大学 AgentLand 实验室。从 2023 年起,我们致力于 AI Agent 相关的游戏项目开发,在语言模型接入和应用以及游戏开发方面都有相当丰富的经验。
现在我们策划了【Agentland Fortnight】线上工作坊,邀请你一起探索 ai 模型在游戏开发当中的新天地!
在这里,你将获得:
国内前沿的游戏设计教育研究团队的分享
Agentland 实验室的资深开发者的技术支持
与志同道合的伙伴一起创作好玩 demo 的机会
一个热爱 AI+游戏的开发者交流社群……
我们计划约 30 位志同道合的伙伴,加入我们为期 15 天的线上工作坊【Agentland Fortnight】,共同开启一场头脑风暴,让创意与技术碰撞出最耀眼的火花!
活动详情:
https://mp.weixin.qq.com/s/0Gj8QoaASc_aSg2qy5hs4g
更多 Voice Agent 学习笔记:
级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。