开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01 有话题的新闻
1、第一个开源的具有实时对话能力的多模态模型:Mini-Omni
Mini-Omni 是一个开源多模型大型语言模型,可以一边听、一边说,一边思考。具有实时端到端语音输入和流音频输出对话功能。Mini-Omni 是清华大学启元实验室开源的项目,能听、能说也能实时思考,在实时语音交互上媲美 GPT-4o。
Mini-Omni 特征
- 实时语音到语音的对话能力: 无需额外的 ASR 或 TTS 模型
- 边思考边说话: 能够同时生成文本和音频
- 流式音频输出: 支持流式音频输出
- Any Model Can Talk」 方法: Mini-Omni可以将语音交互能力添加到其他模型中,为其他模型赋能(@PaperAgent)
2、谷歌 DeepMind 展示 GenRM 技术:微调 LLMs 作为奖励模型,提升生成式 AI 推理能力
谷歌 DeepMind 团队于 8 月 27 日在 arxiv 上发表论文,介绍展示了 GenRM 生成式验证器,创造性提出奖励模型,从而提升生成式 AI 推理能力。
AI 行业内,目前提高大语言模型(LLMs)的主流做法就是 Best-of-N 模式,即由 LLM 生成的 N 个候选解决方案由验证器进行排序,并选出最佳方案。这种基于 LLM 的验证器通常被训练成判别分类器来为解决方案打分,但它们无法利用预训练 LLMs 的文本生成能力。
DeepMind 团队为了克服这个局限性,尝试使用下一个 token 预测目标来训练验证器,同时进行验证和解决方案生成。
DeepMind 团队这种生成式验证器(GenRM),相比较传统验证器,主要包含以下优点:
- 无缝集成指令调整
- 支持思维链推理
- 通过多数投票利用额外的推理时间计算
在算法和小学数学推理任务中使用基于 Gemma 的验证器时,GenRM 的性能优于判别式验证器和 LLM-as-a-Judge 验证器,在使用 Best-of-N 解决问题的百分比上提高了 16-64%。
据 Google DeepMind 报道,GenRM 相对于分类奖励模型的边标志着人工智能奖励系统的关键演化,特别是在其容量方面,以防止新模型学成到的欺诈行为。这一进步突出表明,迫切需要完善奖励模型,使人工智能输出与社会责任标准保持一致。(@IT 之家)
3、谷歌 AI 推出 CardBench 评估框架:含 20 个真实数据库,更全面评估基数估计模型
在数据驱动的时代,数据库查询的性能优化成为了企业提升竞争力的关键。近日,谷歌 AI 研究团队最新推出了 CardBench 评估框架,这一创举将为学习型基数估计(cardinality estimation,简称 CE)领域带来前所未有的全面评估能力。
CardBench 评估框架旨在满足系统对基数估计模型的全面评估需求。该框架不仅包含了 20 个不同真实数据库中的数千次查询,其规模和多样性均远超以往的任何基准,为数据库查询性能的优化提供了强有力的支持。
基数估计是优化关系数据库查询性能的关键,影响查询优化器对执行计划的选择,不准确的估计会降低性能。现代数据库系统中的基数估计技术存在不足,且因缺乏全面基准难以比较不同模型和评估通用性。
CardBench 支持基于实例、零点、微调三种模型设置,提供两组训练数据,包括 9125 个单表查询和 8454 个二进制连接查询,确保了评估的全面性和准确性。
在实际测试中,微调图神经网络(GNN)模型在二进制连接查询中展现出了卓越的性能。其 q-error 中位数仅为 1.32,第 95 百分位数也仅为 120,明显优于零点模型。这一结果表明,即使在训练数据有限的情况下,通过对预训练模型进行微调也能大幅提升其性能。这为实际应用中训练新模型成本过高的问题提供了切实可行的解决方案。(@IT 之家)
4、狨猴会用名字称呼彼此
希伯来大学的研究人员发现,狨猴使用一种叫做「phee-calls」的特殊叫声来识别和交流。到目前为止,这种语音标记他人的能力只在人类、海豚和大象身上发现过。研究人员记录了成对狨猴之间的自然对话,以及猴子与计算机系统之间的互动。他们发现这些猴子用它们的「phee-call」来称呼特定的个体。更有趣的是,狨猴可以分辨出什么时候是针对它们的叫声,而且当它是针对它们的时候,它们的反应更准确。研究还表明,狨猴群体中的家庭成员使用相似的声音标签来称呼不同的个体,并使用相似的声音特征来编码不同的名字,类似于人类使用的名字和方言。这种学习似乎甚至发生在没有血缘关系的成年狨猴身上,这表明它们从家庭群体的其他成员那里学习声音标签和方言。研究人员认为,这种声音标签可能已经进化到帮助狨猴在茂密的雨林栖息地保持联系,在那里能见度通常有限。通过这些叫声,它们可以维持社会纽带,保持群体凝聚力。(@奇客 Solidot)
5、Cursor 开源平替:AI 编程工具 Melty 让编程效率提升 10 倍
Melty 是一个开源的 AI 代码编辑器,由 Replicate 和 Netflix 等组织成员开发,得到 Y Combinator 的支持。Melty 能够理解开发者从终端到 GitHub 的编码过程,并协作编写生产就绪的代码,有助于提升编程效率。
在短短 28 天的开发期间,Melty 就能够自动编写一半的代码,展现了其快速迭代和学习能力。Melty 不仅能够提升编程效率,还能帮助开发者理解代码的每一个变化,就像有一个搭档在旁边指导。此外,Melty 还支持与编译器、终端和调试器等工具的无缝集成,以及项目管理工具如 Linear 和 GitHub。(@机器之心 SOTA 模型)
02 有态度的观点
1、A16z 投资者 Joshua Lu:AI 正在颠覆视频游戏行业,Discord 是未来
Joshua Lu,作为 Andreessen Horowitz 的合伙人,以及曾经的 Zynga 和 Blizzard Entertainment 的产品主管,以及 Meta 的产品管理总监,对于游戏行业的变革有着深刻的理解。
他指出,AI 正在帮助初创公司以质量和创新的方式制作游戏,甚至可能以较低的成本和人力资源实现高质量的游戏产品。例如,Speedrun 加速器中有一半的公司正在使用 AI 技术,从创作故事到生成 3D 头像等方面。
Lu 还强调了 Discord 的潜力,它允许开发者在平台内创建应用程序,为游戏的发现和分发提供了新的途径。此外,Lu 提到了几家在 Discord 上建立游戏的初创公司,如 Clementine 和 Echo Chunk,后者筹集了 140 万美元,用于开发使用 AI 生成无限关卡的游戏。Lu 认为,随着更多的游戏制作和分发平台的出现,Discord 有望成为下一个让社交游戏得以创建和分发的平台。(@雷锋网)
阅读完整报告:
当生成模型足够快时,实时互动视频游戏就将到来——A16Z 最新报告:下一代皮克斯,AI 会如何融合电影和游戏?
03 RTE Builder 项目推荐
小智正在寻找技术和投资人啦!
项目目标: 我们的目标是打造全球每一位独立旅行者的强大 AI 助手-小智旅游助手,通过提供个性化、陪伴式的旅行支持,引领 AI 旅游领域,给个人旅行者提供更加温馨、懂你的服务。
项目创意-已实现功能:
- 区别于其他旅游 APP,提出全新的智能旅游⽅式,通过深度学习⽤⼾的偏好和⾏程需求,主动为⽤⼾提供精准推荐和实时预警服务,告别用户自己通过搜索做旅游攻略的方式。
- 以语音交互的方式提供餐厅、旅游地点推荐,天气和风险地区预警。让助手拟人化,成为旅行中小伙伴的一员,而非冰冷的机器。
- 还在担心一个人旅游拍照的问题?有了小智,从指导到修图,一站式帮您拍出美图。
We are looking for:
- 技术人才 : 我们正在寻找具备前沿技术研发能力的优秀技术人才,尤其是在人工智能、机器学习、大数据处理等领域有丰富经验的专业人士。
- 技术合作: 欢迎其他技术团队与我们开展技术合作,共同开发新的功能模块,优化现有技术方案,或整合双方的技术资源,以实现技术上的突破和创新。
- 战略投资方: 我们正在寻找有志于支持创新技术发展的战略投资方,以推动项目的进一步发展和市场拓展。我们期待与能够提供资金支持和战略指导的投资者合作,共同推动项目成功。
更多信息&联系方式:《小智正在寻找技术和投资人啦!We are looking for IT and investors!》
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。