Gemini AI 升级视频提问和屏幕共享功能;Voice+Visual Agent Demo:语音对话与视觉互动元素结合丨日报

3 月 4 日
阅读 5 分钟
389
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
封面图

Appple 超级体验官招募!大声说出你的宝藏 App~

3 月 3 日
阅读 2 分钟
287
2025 年依旧是属于 AI 的时代,技术飞速迭代,创新层出不穷,而 Apple 生态继续为我们带来了无数令人惊叹的 App。它们或以卓越的用户体验脱颖而出,或凭借强大的功能助力我们的日常工作与生活,又或许凭借独特的创意与设计让人眼前一亮。
封面图

接入语音盒子,广东成人玩偶公司走红;AI 语音访谈员 Chikka 登顶 PH 日榜:AI 语音收集反馈,即时生成洞察报告丨日报

3 月 3 日
阅读 6 分钟
391
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
封面图

Meta 无预警发布新一代 AI 眼镜 Aria Gen 2;腾讯混元 Turbo S 模型将长短思维链融合丨日报

2 月 28 日
阅读 6 分钟
385
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
封面图

今晚 8 点直播:Alexa+ 让 6 亿终端瞬间获得 AI 能力!端侧智能都有哪些开发者机会?丨 RTE Dev Talk

2 月 27 日
阅读 2 分钟
356
如果您正在开发具备语音对话、视觉识别等多模态能力的 AI Agent,或者对探索下一代人机交互方式充满热情,欢迎你预约并收看 27 日(周四)晚八点的 RTE Dev Talk!
封面图

Elevenlabs、Hume.ai、B 站多家推出 STT/TTS 新品;Amphion 开源 20 万小时语音数据集丨日报

2 月 27 日
阅读 6 分钟
429
我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
封面图

Hugging Face 发布 Python WebRTC 库:构建实时音视频应用;微软 Magma:多模态跨数字物理世界丨日报

2 月 26 日
阅读 5 分钟
454
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
封面图

小红书独立开发大赛:让你的宝藏应用被更多人看到

2 月 26 日
阅读 2 分钟
359
无论你是业余在做一款 passion project 的 builder,还是试图 bootstrapping 自己造血的小团队。小红书发起的首届独立开发大赛都值得你关注。

视觉理解+实时语音,打造你的多模态实时 AI丨 TEN+亚马逊云科技开源工作坊

2 月 25 日
阅读 3 分钟
348
在这场 TEN x 亚马逊云科技联合工作坊中,我们将带你使用 TEN 框架 和 Amazon Nova 大模型 ,亲手构建属于你的 Voice Agent ,并部署在 Amazon Bedrock 平台上。无需复杂的代码,TEN 框架将助你快速搭建 AI Agent,而 Amazon Nova 模型的语音和视频理解能力,则为你的 Agent 提供强健大脑。
封面图

S创|月度路演 2025年2月 “消费科技”&“文娱科技”主题,展示项目&圆桌嘉宾公布

2 月 25 日
阅读 5 分钟
475
本期活动我们将关注 “消费科技 & 文娱科技” 赛道,将有 10家消费科技或文娱科技初创企业 登台展示;路演展示环节后,我们将邀请投资机构、大企业创新/战投部门等代表作为评委组成圆桌集中点评项目。活动将设置线上直播(腾讯会议),更多路演企业、点评嘉宾、及部分专业观众来到线下参加,同步搭建路演微信社群,促进资...

Grok 3 语音功能上线,「脏话冒犯」模式引热议;Voice Agent Demo 分享:实时 AI 解说员丨日报

2 月 25 日
阅读 6 分钟
380
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
封面图

Product Hunt 金喵奖 Voice AI 项目一览;AI 招聘平台 Mercor 再融资,估值 20 亿美元 丨日报

2 月 24 日
阅读 7 分钟
620
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
封面图

DeepSeek 即将发布 5 个开源项目;Cartesia Voice Changer:声音转换、克隆和实时语音翻译丨日报

2 月 21 日
阅读 6 分钟
378
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
封面图

TEN 现已接入智谱 GLM-Realtime丨社区来稿

2 月 21 日
阅读 4 分钟
442
就在上周,三星 Galaxy S25 系列全球首发。基于最新 Galaxy AI 的三星 Galaxy S25 系列手机是三星在全球范围内首次推出具有视频通话功能的原生 AI 智能硬件产品。
封面图

为什么推荐你也来 Let's Vision 2025?

2 月 20 日
阅读 5 分钟
424
……活动给我的感受都是这个世界仍然有好奇心,仍然有一些新鲜的、蠢蠢欲动的力量在推进技术的探索。与其在自己的小圈子里纠结卷和躺平的关系,不如多加入各种社群,和有好奇心的、关心彼此的人群一起成长。
封面图

微软 Muse 游戏生成模型:理解游戏环境,生成玩家动作;西工大 ASLP 实验室开源语音理解模型 OSUM丨日报

2 月 20 日
阅读 6 分钟
499
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
封面图

Hume AI 即将推出新 AI 语音产品;声网上线对话式 AI 引擎,15 分钟让 DeepSeek 开口说话丨日报

2 月 19 日
阅读 5 分钟
423
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

2 行代码,15 分钟部署对话式 AI Agent!丨社区来稿

2 月 19 日
阅读 3 分钟
411
基于开源框架 TEN Framework 构建,声网近日推出了最新的对话式 AI 引擎。这是一个「开箱即用」的对话式 AI 部署解决方案。2 行代码,15 分钟,即使像 DeepSeek 这样的文本大模型也能快速转变为对话式多模态大模型,具备能说会道的能力。

技术详解:阶跃星辰开源语音交互和视频生成模型丨社区来稿

2 月 18 日
阅读 7 分钟
720
开源第一日,stepfun-ai 在 GitHub 的两个仓库(Step-Audio 和 Step-Video-T2V)有望双双突破一千星!期待更多 Multimodal LLM 团队加入开源社区,共同推动技术进步。
封面图

马斯克:Grok 正在开发语音交互功能;阶跃星辰开源产品级语音交互大模型 Step-Audio 丨日报

2 月 18 日
阅读 7 分钟
545
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
封面图

阶跃星辰开源文生视频模型 Step-Video-T2V;斯坦福社交推理语言模型:多个 AI 用自然语言玩 Among US丨日报

2 月 17 日
阅读 6 分钟
483
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
封面图

FoloUp:语音 AI 面试官开源方案;Anthropic 即将发布混合 AI 模型:兼顾速度与深度推理丨日报

2 月 14 日
阅读 6 分钟
547
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
封面图

报名丨Computer use&Voice Agent :使用 TEN 搭建你的 Mac Assistant

2 月 14 日
阅读 2 分钟
447
与 TEN 相聚在「LET’S VISION 2025」大会,欢迎来展位上跟我们交流。这次我们还准备了一场聚焦「computer use」的工作坊,功能新鲜上线,线下首波体验!📅 TEN 展位:2025年3月1日-2日TEN workshop:2025年3月2日 13:30开始📍 上海浦东鲜花港TEN Framework 是一个主流对话式 Voice Agent 开源框架。基于 TEN 框架构建的实...

多模态 AI 怎么玩?这里有 18 个脑洞

2 月 13 日
阅读 5 分钟
421
Google 近期举办了一场名为「MultiModal Hackathon」的限时编程活动,聚焦于 多模态与 Gemini 2.0 的最新能力。活动汇聚了 200 多位开发者,共同探索多模态 AI、实时 AI、生成式视频的前沿应用。

语音 AI 招聘平台 ConverzAI 融资 1600 万美元;OpenAI 将整合 GPT 和 o 系列模型丨日报

2 月 13 日
阅读 5 分钟
410
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
封面图

雷朋 Meta 眼镜视觉识别功能开放测试;Ultravox 新版语音模型 :语音理解超 GPT-4o 和 Gemini

2 月 12 日
阅读 4 分钟
439
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
封面图

Zonos-v0.1:开源 TTS 模型,支持多语言和高保真声音克隆;「Apple 智能」或即将在国内上线,苹果举行开发者活动

2 月 11 日
阅读 5 分钟
527
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
封面图

小红书开源 FireRedASR 语音识别模型,3.05% 字错误率;Meta AI 脑电波打字模型:32% 字错误率

2 月 10 日
阅读 7 分钟
669
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
封面图

WebGPU 版 Kokoro:浏览器端零成本使用高质量 TTS;苹果 ELEGNT 台灯机器人:赋予非人形机器人「情感」

2 月 8 日
阅读 6 分钟
599
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
封面图

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

2 月 7 日
阅读 24 分钟
375
今天推荐的文章来自 Vela 新录制的一期播客的整理,对话语音 APP TalktoApps 的创始人 Ebaad。Ebaad 分享了诸多在开发 voice first 产品时碰到的挑战和思考,语音界面和图形界面如何结合?何时何地采用什么样的人机交互更为合适?产品背后的技术架构又该如何设计和演化?听听他们的对话,期待对你有所启发。