开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01 有话题的技术
1、ChatGPT 深度研究可以连接到 GitHub,同时新支持强化微调功能
ChatGPT 的深度研究(Deep Research)功能,现在可以直接连接到 GitHub。
在发送问题之后,输入框底部就会出现「GitHub」的选项,ChatGPT 就会直接连接到 GitHub 中的 18 个相关 repos,基于此来生成答案。
OpenAI 在 2024 年 12 月预览过的新功能—强化微调(Reinforcement fine-tuning,RFT),现在可以正式在 o4-mini 中使用了。
RFT 可以使用思维链推理和任务特定评分来提高模型性能,特别适用于复杂领域。如使用 RFT 微调了一个在税务和会计方面达到顶尖水平的模型。(@量子位)
2、字节最新发布图像理解与生成的统一模型 Mogao
字节最新发布了和 GPT-4o 类似的图像理解与生成的统一模型 Mogao,Mogao 融合了多项关键架构改进:深度融合设计、双视觉编码器、交错旋转位置编码以及多模态无分类器引导,使其能同时发挥自回归模型在文本生成和扩散模型在高质量图像合成的优势。
Mogao 模型由 N 个改进的 LLM 解码器层构成,通过不同的 QKV 矩阵 和 FFN(前馈网络) 处理视觉 token。当图像作为条件输入时,同时使用 VAE(变分自编码器) 和 ViT(视觉 Transformer) 提取视觉特征;而在生成图像时,仅使用 VAE。值得注意的是,我们为 ViT token 和其对应的 VAE token 分配了相同的 位置 ID。条件信息会通过 AdaLN(自适应层归一化) 层对视觉 token 进行调制。Mogao 采用 Qwen2.5-3B 做作为基础 LLM,总参数量为 7B。
Mogao 在文生图 GenEval 上达到 0.89,在 DPG-Bench 上达到 84.33,超过之前的 Janus-Pro-7B。(@AI 小小将)
3、阿里巴巴在 Github 等平台开源 ZeroSearch 大模型搜索引擎
(图片来源:Github)
5 月 8 日,阿里巴巴在 Github 等平台开源了一项极具创新性的成果 ——ZeroSearch 大模型搜索引擎。ZeroSearch 本质上是一种独特的强化学习框架,其最大亮点在于,无需与传统意义上的真实搜索引擎进行交互,便能充分激励大模型自身潜藏的搜索能力 。
研究人员在 NQ、TriviaQA、PopQA、HotpotQA 等 7 大权威问答数据集上展开了综合评测 。一个参数量为 70 亿的监督微调模型,在应用 ZeroSearch 后,其搜索能力数值达到了 33.06;而当模型参数量提升至 140 亿时,搜索能力更是攀升至 33.97 。与之形成对比的是,谷歌搜索在同样评测体系下的得分仅为 32.47 。这一数据清晰地表明,在特定的评测维度下,ZeroSearch 的搜索表现已经成功超越了行业巨头谷歌搜索,展现出强大的实力 。
经计算,使用 ZeroSearch 的成本相较于谷歌搜索降低了 87.93% 以上 。(@AI 西站训练营)
02有亮点的产品
1、TTS 平台 Smallest.ai :100 毫秒延迟、支持中文、印地语等多语言
smallest.ai 是一个拥有超过 100 种专业、逼真声音的 TTS 平台。无论您是开发者、创作者还是企业,都能无缝地将这些高质量的 AI 声音集成到您的应用、产品或内容中。
目前,该产品支持 30 多种不同的语言。
- 混合语言理解:支持英语、西班牙语、印地语、中文、法语等;
- 高质量音频:捕捉说话者声音的细微之处;
- 超低延迟:<100ms API 延迟;
- 即时语音克隆:只需 10 秒音频即可生成高质量的语音克隆。
体验链接:https://smallest.ai/ (@ ProductHunt)
2、AskTube.Ai:用任何语言询问关于 YouTube 视频的任何问题,支持中文
AskTube.Ai 支持与 YouTube 视频互动并获得精确答案。包括总结内容、引用来源、接收分步指南、分解为章节(带时间戳),以及是否支持所选语言。能够保存具有历史记录和收藏夹的聊天记录,以便稍后返回。
目前支持 13 种输出语言:英语、西班牙语、乌克兰语、俄语、波兰语、法语、德语、葡萄牙语、意大利语、土耳其语、阿拉伯语、印地语、中文。
同时每条对话消息都被独立处理,系统不会保存以前的对话。
体验链接:https://asktube.ai/ (@ProductHunt)
3、Mo':低于 2 秒的延迟翻译 Teams 实时会议
Mo' 是一款支持超过 10 种语言的即时音频翻译产品,目前可以支持 10 多种语言,包括英语、法语、德语、西班牙语、意大利语、阿拉伯语、日语等。同时允许每位参与者以不同的语言收听和发言,而不会互相受到干扰。该产品与 Microsoft Teams 无缝集成,无需安装其他软件。
- 通过语音命令开始或停止翻译;
- 随时切换语言,无需中断对话;
- 通过 legml.ai 上的直观仪表板跟踪您的使用情况;
- 自动通过电子邮件接收每次对话的摘要。
同时开发团队即将推出 Mo'的两个新的专业版本:
- Mo' Legal:一款 AI 法律助手,可提供即时、可靠的答案;
- Mo' Research:一个研究助手,可以快速探索复杂的数据集并提取您需要的关键信息。(@ ProductHunt)
03 社区项目推荐
1、Ava:6 分钟语音聊天免费生成 MBTI 报告
来自@Chikka.ai:我们 Chikka.ai 团队最近做了一个好玩的 AI 语音 MBTI 测试,只需要 6 分钟语音聊天,AI 就可以通过声音内容来分析人格,免费生成 MBTI 报告。大家可以试试,也给我们提提意见。
特点:
- AI 语音评估:结合语音音调、节奏和词汇以获得心理洞察;
- 科学验证:与 45 分钟的心理测量测试结果 93% 吻合。经科学研究和高级人工智能分析验证的可靠准确性;
- 仅需 6 分钟:与人工智能认知心理学家 Ava 互动,进行流畅的对话,感觉就像与一位支持你的朋友交谈。无需选择复杂的选项;
- 更深入的洞察:超越传统的调查问卷。允许通过声音的细微差别(音高、节奏、情感变化)来揭示潜意识特征,从而帮助您发现真实的自我。
04有态度的观点
1、OpenAI 任命新 CEO,奥特曼未来将专注于研究、算力与安全
奥特曼发文称,Fidji Simo 将以「应用 CEO」全新身份加入 OpenAI,向他本人汇报。
奥特曼依旧还是 OpenAI CEO,不过未来将专注于研究、算力与安全。
他甚至表示,随着 OpenAI 离超级智能越来越近,这一组织架构的调整变得至关重要。
未来几个月,Fidji Simo 将在过渡期间继续担任 Instacart CEO,之后将担任董事会主席。她不仅是 Instacart 首席执行官,还曾是一位在 Facebook(Meta)工作十年的资深高管。在她的领导下,Facebook 推出了多项革命性功能,比如 Facebook Live、Facebook Watch。这些创新不仅革新了用户的体验,也为公司带来了数十亿美元移动广告收入。作为 Instacart 的掌舵人,她不仅专注于优化物流和技术,还将自己曾在前东家的广告经验,应用于消费公司合作中,帮助品牌提升曝光度。
此次,Fidji Simo 加入 OpenAI,或许 ChatGPT 等产品下一步将会迎来颠覆性变化。(@新智元)
2、扎克伯格深度专访:元宇宙概念仍在推进,怼苹果,夸 DeepSeek,聊 AI 开源痛点
据 Stratechery 报道,4 月 28 日下午,社交媒体平台 Stratechery 的创始人、记者本・汤普森(Ben Thompson)在 Meta 总部对 Meta 的创始人、董事会主席兼 CEO 马克・扎克伯格(Mark Zuckerberg)进行了专访。
Meta 在 AI 领域的布局以开源大语言模型 Llama 为核心,实现了生成文本、数学推理、代码生成等能力的跃升,其关键创新在于仅使用公开数据集训练,并通过 1.4 万亿 tokens 的数据量弥补参数规模的不足。这种「小模型大智慧」的技术路径,印证了扎克伯格「效率优先」的 AI 哲学。
Meta AI 已实现月活跃用户近 10 亿,成为全球用户规模最大的 AI 助手之一。其核心功能包括自然语言交互(支持语音对话和文字输入)、多模态内容生成(如通过文本描述创建 3D 虚拟场景、生成广告素材),以及个性化推荐系统(根据用户行为优化信息流和社交匹配)。此外,Meta 在 AR/VR 领域的布局(如 Orion AR 眼镜)与 AI 结合,探索元宇宙内容生成和智能交互场景,计划通过眼镜设备实现 AI 助手与用户的全天候无缝互动。
原视频地址:https://youtu.be/rYXeQbTuVl0?si=MT1CnNruLl-k561x (@智东西)
更多 Voice Agent 学习笔记:
级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。