开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq、@ssn、@鲍勃
01 有话题的技术
1、声网上线对话式 AI 引擎 Beta 版,15 分钟让 DeepSeek 开口说话
近期,DeepSeek 旋风席卷全球,其独有的深度思考+联网模式让用户纷纷惊叹好用,如果你想脱离与 AI 的文字互动,与 DeepSeek 进行更具真实感的语音对话,声网的对话式 AI 引擎让你 15 分钟内就能做到。
声网对话式 AI 引擎 Beta 版于 2 月 18 日 正式上线,支持开发者在 Console 后台自行开通服务接入 API,并在 Playground 中实际调参、测试并生成代码,仅需 2 行代码,15 分钟即可部署基于大模型的对话式 AI Agent。
核心能力:
- AI 语音秒回:AI 秒回你的提问,语音对话延迟低至 650ms
- 对话人声锁定: 屏蔽 95%环境人声、噪声干扰,精准识别对话人声
- 智能打断: 模拟真人对话节奏,随时打断与 AI 的对话,响应低至 340ms
- 全模型适配:实现 DeepSeek、ChatGPT 等全模型适配,更有音视频 SDK 支持 30000+终端机型适配,解决多设备兼容性的后顾之忧
- 不惧弱网:地铁、地下车库等弱网环境下,人与 AI 也能流畅对话
声网对话式 AI 引擎官网也已同步上线,开发者在了解产品功能的同时,也可通过官网申请体验最新的 Demo 应用。(@声网)
2、OpenAI 前 CTO 官宣新公司,挖来大批 ChatGPT 核心骨干,北大校友加盟
北京时间今天凌晨,OpenAI 前 CTO Mira Murati 宣布,创立名为 thinkingmachines 的 AI 公司。
根据 thinkingmachines 官方介绍,工作人员由来自「ChatGPT、 Character.AI 、PyTorch 和 Mistral」等公司的成员构成。在官网上可以看到,目前团队成员中,有相当一部分的成员有过在 OpenAI 任职的经历,如前 OpenAI 研究(后培训)副总裁 Barret Zoph、前 OpenAI VP 翁荔等人。Mira Murati 表示, thinkingmachines 正在构建以下三件事:
- 帮助人们调整人工智能系统以适应其的特定需求
- 打造强大的基础模型,用以构建更强大的 AI 系统
- 培养开放科学的氛围,帮助整个领域理解和改进这些系统(@APPSO)
3、Deepgram 推出 Nova-3,为 AI 驱动的 STT 树立新标准
企业用例语音 AI 平台 Deepgram 近期发布了全新的语音转文本(STT) 模型 Nova-3。
据官方介绍,Nova-3 以前代产品的优势作为基础,是 Deepgram 迄今为止最先进的 STT 模型,旨在重新定义 STT 准确度和性能的基准。
Nova-3 专为实时应用场景设计,突破了 AI 驱动转录的界限,在传统解决方案难以胜任的复杂环境中提供卓越的准确性和性能。即使在嘈杂或特殊环境中,它也能实现出色的转录准确性,从而提高生产力、客户满意度和成本效率。Nova-3 具备先进的功能,以应对各种复杂场景:
- 恶劣的声学条件 ——在远距离、嘈杂和多说话人场景中准确转录语音,使其成为空中交通管制、免下车服务以及呼叫中心的理想选择。
- 实时多语言支持 ——支持跨多种语言的实时转录(同类模型中首创),适用于应急响应、全球客户服务和多语言业务等场景。
- 行业特定的准确性 ——识别医学和法律转录等专业领域的特定术语。
- 精确数据处理 ——确保零售、银行和金融领域的准确数字识别,同时支持实时编辑敏感信息以确保合规性和数据隐私。
此外,Nova-3 是业界首个支持自助定制的语音 AI 模型,用户无需具备深厚的机器学习专业知识即可针对特定领域对模型进行微调。
测试结果表明,与竞争对手相比,Nova-3 提供业界领先的性能,流媒体的字错误率 (WER) 降低了 54.3%,批处理的字错误率降低了 47.4%。(@实时互动网)
02 有亮点的产品
1、Supertone Play:AI 语音工具赋能内容创作,多语种支持与安全保障
近日,韩国娱乐公司 HYBE 旗下人工智能语音公司 Supertone 正式发布了一款名为「Supertone Play」的创新文本转语音工具,旨在为内容创作者提供高质量、富有表现力的音频解决方案。
多语种支持与丰富的声音角色
Supertone Play 目前支持英语、韩语和日语三种语言,并计划在年内将支持范围扩展至西班牙语和中文,以满足全球创作者的需求。该工具提供多达 150 种不同的声音角色,涵盖了从自然对话到专业新闻播报,再到有声读物和潮流搞笑声音等多种风格,可以广泛应用于各种内容创作场景。
个性化定制与情感表达
除了丰富的声音角色外,Supertone Play 还具备强大的语音克隆功能。用户只需提供 10 秒钟的个人声音样本,即可创建独一无二的个性化声音角色。更重要的是,用户还可以根据创作需求,调整声音的情感语调,实现更加生动和富有感染力的表达。
安全保障与技术防滥用
为了防止该技术被滥用于深度伪造等非法用途,Supertone 在 Supertone Play 中加入了多项安全措施。例如,「声音验证码」功能可以确保创作者使用的是自己的真实声音,而「不可听水印」则可以追踪由 Supertone 生成的语音内容。这些安全措施的实施,旨在保障技术的合理使用,维护用户的权益。
广泛的应用前景
Supertone 表示,Supertone Play 生成的声音质量已经达到了可以应用于视频游戏、商业广告、视频制作和播客等多个领域的水平。目前,用户可以在 Supertone 官方网站上免费试用该工具,试用期至 4 月 16 日。(@AI TOP100)
2、Hume AI 宣布即将推出新 AI 语音产品
Hume AI 今日发布预告,新的 AI 语音产品即将推出。
此前,Hume AI 宣布推出新语言语音模型 OCTAVE(Omni-modal Conversational Text and Voice Engine) ,这款模型具备情感语音生成、声音克隆、多角色对话合成等技术能力。(@Hume@X)
3、NotebookLM 前核心成员推出新产品 Huxe,帮助产品经理高效决策
NotebookLM 的前创始人宣布推出新产品 Huxe(尚未正式上架)。Huxe 的核心目标是构建一个统一界面,整合多个数据源,进行 AI 分析并生成报告,从而简化产品经理日常工作中频繁切换多个应用获取信息的流程,缩短信息挖掘时间,并提高决策效率。
Huxe 旨在提供一个平台,将来自 Salesforce、Zendesk、Slack 等多个业务数据源整合到一个标签页中,实现以下功能:
- 透明的推理过程 : 能够清晰展示系统得出结论的步骤,例如 Salesforce SOQL 查询和 Zendesk 自定义过滤器。
- 智能代理流程 : 通过多步骤的智能代理流程,确定数据来源,执行查询,精炼结果,整合不同来源的数据,并根据用户反馈进行优化。
- 自动化报告 : 自动生成用户需要跟踪的报告,例如每日 Discord 社区反馈报告。(@Raiza Martin@X、tuturetom@X)
4、「9 块 9」 的中国 AI 耳机,疯狂收割老外
AI 翻译耳机在 TikTok 上的热销引发了全球消费者的关注,特别是在美国和中东等移民聚集地区,需求迅速暴涨。通过将 AI 翻译和助手功能集成到耳机中,这些耳机不仅具备同声传译和音视频通话翻译功能,还可以进行降噪处理,提升用户体验。
NebulaBuds 等耳机品牌通过提供 AI 助手和翻译功能的 App 解决方案,使蓝牙耳机在短时间内销售额大幅增长,从原本的月销售 200 万元飙升至 800 万元。低价翻译耳机成为热销产品,名创优品等品牌在 TikTok 上推出的翻译耳机售价仅在 13.99 至 23.99 美元之间,极大降低了消费者的尝试门槛。
随着 AI 技术的不断进步,语音识别和翻译功能的准确性大幅提升,AI 耳机的实用性和市场需求也进一步扩大。华强北的小型耳机代工厂迅速抓住这一机遇,推出了价格低廉、功能强大的 AI 翻译耳机,成功吸引了全球消费者,成为全球耳机市场的新增长点。(@极客公园)
03 有态度的观点
1、a16z 创始人:新公司远比现有企业更快实现 AI Agent 的完全替代
(图片来源:Peter H.Diamandis)
a16z 创始人 Peter Diamandis 在近日表示,现有企业远不如新公司能够迅速实现 AI Agent 的完全替代。新的 AI 公司可以围绕 AI 进行组织架构设计,从而更高效地推动技术的落地。他还指出,拜登政府与科技行业之间的对立加剧,科技并购几乎被冻结,影响了行业的发展。
Diamandis 强调,利用 AI 解决癌症和延长人类健康寿命将是未来的巨大市场,创业者需确保在产品落地之前有稳固的早期营收。
此外,他提到中国在 AI 机器人领域逐渐失去低劳动力成本的优势,过去的崛起主要依赖劳动力套利。
最后,他呼吁用户应掌握自己的数据,建立公钥基础设施(PKI)来确保数据安全。(@Z potentials)
更多 Voice Agent 学习笔记:
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。