SF
RTC 实时音视频
RTC 实时音视频
注册登录
关注博客
注册登录
主页
关于
RSS
DeepSeek 即将发布 5 个开源项目;Cartesia Voice Changer:声音转换、克隆和实时语音翻译丨日报
RTE开发者社区
2 月 21 日
阅读 6 分钟
98
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
TEN 现已接入智谱 GLM-Realtime丨社区来稿
RTE开发者社区
2 月 21 日
阅读 4 分钟
117
就在上周,三星 Galaxy S25 系列全球首发。基于最新 Galaxy AI 的三星 Galaxy S25 系列手机是三星在全球范围内首次推出具有视频通话功能的原生 AI 智能硬件产品。
为什么推荐你也来 Let's Vision 2025?
RTE开发者社区
2 月 20 日
阅读 5 分钟
183
……活动给我的感受都是这个世界仍然有好奇心,仍然有一些新鲜的、蠢蠢欲动的力量在推进技术的探索。与其在自己的小圈子里纠结卷和躺平的关系,不如多加入各种社群,和有好奇心的、关心彼此的人群一起成长。
微软 Muse 游戏生成模型:理解游戏环境,生成玩家动作;西工大 ASLP 实验室开源语音理解模型 OSUM丨日报
RTE开发者社区
2 月 20 日
阅读 6 分钟
217
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
Hume AI 即将推出新 AI 语音产品;声网上线对话式 AI 引擎,15 分钟让 DeepSeek 开口说话丨日报
RTE开发者社区
2 月 19 日
阅读 5 分钟
214
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
2 行代码,15 分钟部署对话式 AI Agent!丨社区来稿
RTE开发者社区
2 月 19 日
阅读 3 分钟
192
基于开源框架 TEN Framework 构建,声网近日推出了最新的对话式 AI 引擎。这是一个「开箱即用」的对话式 AI 部署解决方案。2 行代码,15 分钟,即使像 DeepSeek 这样的文本大模型也能快速转变为对话式多模态大模型,具备能说会道的能力。
技术详解:阶跃星辰开源语音交互和视频生成模型丨社区来稿
RTE开发者社区
2 月 18 日
阅读 7 分钟
359
开源第一日,stepfun-ai 在 GitHub 的两个仓库(Step-Audio 和 Step-Video-T2V)有望双双突破一千星!期待更多 Multimodal LLM 团队加入开源社区,共同推动技术进步。
马斯克:Grok 正在开发语音交互功能;阶跃星辰开源产品级语音交互大模型 Step-Audio 丨日报
RTE开发者社区
2 月 18 日
阅读 7 分钟
278
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
阶跃星辰开源文生视频模型 Step-Video-T2V;斯坦福社交推理语言模型:多个 AI 用自然语言玩 Among US丨日报
RTE开发者社区
2 月 17 日
阅读 6 分钟
305
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
FoloUp:语音 AI 面试官开源方案;Anthropic 即将发布混合 AI 模型:兼顾速度与深度推理丨日报
RTE开发者社区
2 月 14 日
阅读 6 分钟
382
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
报名丨Computer use&Voice Agent :使用 TEN 搭建你的 Mac Assistant
RTE开发者社区
2 月 14 日
阅读 2 分钟
333
与 TEN 相聚在「LET’S VISION 2025」大会,欢迎来展位上跟我们交流。这次我们还准备了一场聚焦「computer use」的工作坊,功能新鲜上线,线下首波体验!📅 TEN 展位:2025年3月1日-2日TEN workshop:2025年3月2日 13:30开始📍 上海浦东鲜花港TEN Framework 是一个主流对话式 Voice Agent 开源框架。基于 TEN 框架构建的实...
多模态 AI 怎么玩?这里有 18 个脑洞
RTE开发者社区
2 月 13 日
阅读 5 分钟
315
Google 近期举办了一场名为「MultiModal Hackathon」的限时编程活动,聚焦于 多模态与 Gemini 2.0 的最新能力。活动汇聚了 200 多位开发者,共同探索多模态 AI、实时 AI、生成式视频的前沿应用。
语音 AI 招聘平台 ConverzAI 融资 1600 万美元;OpenAI 将整合 GPT 和 o 系列模型丨日报
RTE开发者社区
2 月 13 日
阅读 5 分钟
337
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
雷朋 Meta 眼镜视觉识别功能开放测试;Ultravox 新版语音模型 :语音理解超 GPT-4o 和 Gemini
RTE开发者社区
2 月 12 日
阅读 4 分钟
349
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
Zonos-v0.1:开源 TTS 模型,支持多语言和高保真声音克隆;「Apple 智能」或即将在国内上线,苹果举行开发者活动
RTE开发者社区
2 月 11 日
阅读 5 分钟
352
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
小红书开源 FireRedASR 语音识别模型,3.05% 字错误率;Meta AI 脑电波打字模型:32% 字错误率
RTE开发者社区
2 月 10 日
阅读 7 分钟
434
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
WebGPU 版 Kokoro:浏览器端零成本使用高质量 TTS;苹果 ELEGNT 台灯机器人:赋予非人形机器人「情感」
RTE开发者社区
2 月 8 日
阅读 6 分钟
435
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
RTE开发者社区
2 月 7 日
阅读 24 分钟
282
今天推荐的文章来自 Vela 新录制的一期播客的整理,对话语音 APP TalktoApps 的创始人 Ebaad。Ebaad 分享了诸多在开发 voice first 产品时碰到的挑战和思考,语音界面和图形界面如何结合?何时何地采用什么样的人机交互更为合适?产品背后的技术架构又该如何设计和演化?听听他们的对话,期待对你有所启发。
Kyutai 发布实时同传语音模型 Hibiki,可在 iPhone 运行;清华、东大等发布音频生成动作模型 EMAGE
RTE开发者社区
2 月 7 日
阅读 4 分钟
399
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
亚马逊将发布新一代 Alexa,引入 Claude;顶尖 AI 科学家许主洪加入阿里,负责多模态基础模型丨RTE 开发者日报
RTE开发者社区
2 月 6 日
阅读 6 分钟
278
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
RTE开发者社区
2 月 6 日
阅读 9 分钟
287
「我们正从 AI 语音的基础设施层过渡到应用层」,继 24 年 5 月推出首篇关于 Voice AI([链接]) 的报告后,25 年初 a16z 再次更新了语音 AI 赛道的最新洞察。
PlayAI 发布 TTS 新模型,三方测试超 ElevenLabs;19岁华人辍学打造对话式 AI 助手,融资 200 万美元
RTE开发者社区
2 月 5 日
阅读 5 分钟
397
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
杨立昆谈 Deepseek:开源正在超越私有;SpeechGPT 2.0-preview:情景智能拟人化实时交互系统
RTE开发者社区
1 月 27 日
阅读 4 分钟
412
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
RTE开发者社区
1 月 26 日
阅读 6 分钟
510
来自讯飞、乐鑫、闪极科技、TEN、MiniMax、声网、小智 AI 聊天机器人等项目的开发者都到场分享或交流。主题领域覆盖 IoT、AI 眼镜、RTC、voice agent 构建框架、ESP32 等话题。
AI 语音独角兽 ElevenLabs C 轮融资估值超 30 亿美元;港科大 Llasa TTS:15 秒声音克隆支持中英双语
RTE开发者社区
1 月 26 日
阅读 5 分钟
1.1k
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
RTE 社区 2024 总结:虽然「卷」,但可以和一群朋友一起,找到自己的速度丨RTE 开发者社区
RTE开发者社区
1 月 24 日
阅读 6 分钟
391
2025 年 1 月 4 日,小寒前夕,在北京甜水园的苟市和上海静安的 Solution,一群 Real-Time AI&Voice Agent Builder 加入了一场名为 「RTE Dev Party 2024o」的年度开发者聚会。席间觥筹交错,欢声笑语。RTE 开发者社区的三位主理人京沪连线讨论 2024 年的感受和 2025 年的希冀时,被问到上面的问题,三位主理人都认真地...
Hugging Face 视觉语言小模型 SmolVLM 可在手机运行;OpenAI 推出智能体 Operator 联网执行任务
RTE开发者社区
1 月 24 日
阅读 5 分钟
332
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
字节 GUI 代理模型 UI-TARS:具备像人一样的感知、推理、行动能力;SLAM-Omni:支持可控音色的语音对话模型
RTE开发者社区
1 月 23 日
阅读 5 分钟
483
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
让万物「听说」:AI 对话式智能硬件方案和发展洞察
RTE开发者社区
1 月 23 日
阅读 4 分钟
363
本文整理自声网 SDK 新业务探索组技术负责人,IoT 行业专家 @吴方方 1 月 18 日在 RTE 开发者社区「Voice Agent +硬件分享会」上的分享。本次主要介绍了 AI 对话式智能硬件的发展历程,新一波 AI 浪潮所带来的创新机遇、技术挑战以及未来的展望。
Anthropic 计划为 Claude 发布「双向」语音模式;商汤「日日新」实时音视频对话服务开放商用丨 RTE 开发者日报
RTE开发者社区
1 月 22 日
阅读 5 分钟
312
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
1
(current)
2
3
4
5
…
More
下一页
1
(current)
下一页