头图

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、微软论文曝光 GPT 机密内容

近日,微软发布的一篇医学相关的论文中,曝光了 OpenAI 旗下模型的参数。

根据论文披露,OpenAI 的 o1-preview 模型约有 300B 参数,GPT-4o 约 200B,而 GPT-4o-mini 仅有 8B 参数。有消息指出,英伟达此前公布的 GPT-4 采用 1.8T MoE 架构,而此次微软公布的为 1.76T。同时,论文还透露了 Claude3.5Sonnet 的参数规模约为 175B。

据了解,这并非微软第一次「泄露」模型参数信息。此前微软曾在一篇论文中披露 GPT-3.5-Turbo 的 20B 参数信息,但随后又在更新版本中删除了这一信息。
此外,此篇论文的主要目的是介绍一个名为 MEDEC 的医疗领域基准测试。研究团队分析了来自三家美国医院的 488 份临床笔记,评估了各大模型在识别和纠正医疗文档错误方面的能力。(@APPSO)

2、Meta AI 推出 LIGER 混合检索 AI 模型,计算效率与推荐精度兼得

Meta AI 公司联合威斯康星大学麦迪逊分校、ELLIS Unit、LIT AI Lab、机器学习研究所、JKU Linz 等机构,混合密集检索和生成检索,推出了 LIGER(LeveragIng dense retrieval for GEnerative Retrieval)模型。

该模型混合了生成检索的计算效率和密集检索的精度,利用生成检索生成候选集、语义 ID 和文本属性的项目表示,再通过密集检索技术进行精练,平衡了效率和准确性。

LIGER 采用双向 Transformer 编码器和生成解码器。密集检索部分整合了项目文本表示、语义 ID 和位置嵌入,并使用余弦相似度损失进行优化。生成部分使用波束搜索根据用户交互历史预测后续项目的语义 ID。

通过这种混合推理过程,LIGER 降低了计算需求,同时保持了推荐质量。LIGER 还能很好地泛化到未见过的项目,解决了先前生成模型的关键限制。

在 Amazon Beauty、Sports、Toys 和 Steam 等基准数据集上的评估显示,LIGER 的性能持续优于 TIGER 和 UniSRec 等现有最先进模型。(@IT 之家)

3、超快音效生成模型 TangoFlux:仅需 3 秒钟就能生成 30 秒长音频

新加坡科技设计大学(SUTD)和NVIDIA联合发布了一种高效的文本到音频生成模型 (TTA)——TangoFlux 。

TANGOFLUX 是一种高效的文本到音频生成模型,拥有 515 百万个参数,能够在短短 3.7 秒内生成最长可达 30 秒的 44.1kHz 音频,这一速度让其在单个 A40GPU 上的表现非常出色。

TANGOFLUX 主要是特色是可以生成各种音效,例如鸟叫、口哨、爆炸等声音,另外也支持生成音乐不过效果就不那么理想了。

文本音频生成模型的一个主要挑战在于如何创建偏好配对。与大型语言模型(LLMs)不同,文本音频生成模型缺乏可验证的奖励机制或金标准答案。为了解决这个问题,研究团队提出了一种名为 CLAP-Ranked Preference Optimization(CRPO)的新框架。该框架通过迭代生成和优化偏好数据,以提升文本音频生成模型的对齐性能。研究表明,使用 CRPO 生成的音频偏好数据在性能上优于现有的替代方案。

通过这一框架,TANGOFLUX 在多项客观和主观基准测试中都取得了领先的表现。此外,研究团队还决定将所有代码和模型开源,以支持更多人对文本音频生成的研究。

在实际效果方面,TANGOFLUX 在音频生成质量上优于其他模型,展现出更清晰的事件声音、更好的事件顺序再现以及更高的音频质量。通过对多个示例的比较,用户可以直观地感受到 TANGOFLUX 在音频生成中的优势。(@AIbase 基地)

02 有亮点的产品

1、VocAdapt:一款语言学习工具

VocAdapt 是一款新推出的 Chrome 浏览器扩展,专注于提供创新的语言学习解决方案。它的核心特点是将日常网页浏览和 YouTube 视频观看转化为语言学习机会,通过自动调整内容难度来适应用户的语言水平。

用户无需额外安排学习时间,只需在日常上网时使用这个工具,就能实现自然的语言学习。它特别适合那些想通过真实内容学习语言、时间有限或偏好沉浸式学习方法的人。使用方式简单,安装后选择目标语言,即可开始在日常浏览中学习。(@Z potentials)

2、SEObot:全球首个 AI 驱动的博客 SEO 代理

SEObot 是一款革命性的 AI 驱动博客 SEO 工具,旨在为内容创作者和营销人员提供全面的 SEO 优化和内容生成服务。其核心价值在于通过先进的 AI 技术,实现高质量、非垃圾内容的自动化生成,同时优化 SEO 策略,提高网站的搜索引擎排名。产品的主要功能包括 AI 生成博客内容、自动内部链接、关键词研究、视频嵌入、图片生成、反幻觉机制、事实核查和引用来源等。

SEObot 的独特优势在于其全面性和自动化程度,能够满足从内容创作到 SEO 优化的全流程需求。目标用户主要包括博客作者、内容营销团队和希望提升网站 SEO 表现的企业。通过提供可选的人工审核和与大多数 CMS 系统的自动同步功能,SEObot 大大简化了内容创作和 SEO 优化的工作流程,为用户节省时间和资源,同时确保内容质量和搜索引擎友好性。(@Z potentials)

03 有态度的观点

1、a16z 华裔合伙人 Jennifer Li 最新洞察:小模型 + 边缘 AI 将定义 2025

a16z 合伙人 Jennifer Li 最近分享了她对生成式 AI 的最新见解,特别提到了设备端运行的小型模型在未来的重要性。

去年 4 月,Jennifer 升任为 a16z 第 27 位普通合伙人,并在 a16z 新成立的 12.5 亿美元 AI 基础设施基金扮演关键角色。

Jennifer 表示,生成图像、语音和视频的生成式模型将在基础设施和设备计算能力方面变得更加普及,这为小型模型的崛起提供了绝佳条件,而在设备端运行的小型生成式 AI 模型将在 2025 年更加流行。

许多日常使用的应用程序,比如 Uber、Instacart、Lyft 或 Airbnb,已经在设备端运行了大量机器学习模型。然而,她特别想强调的是生成式模型,它们正在逐渐实现类似传统机器学习模型的设备端运行。

Jennifer 表示,如今的智能手机计算能力相当于 10~20 年前的电脑,加上摩尔定律的作用,像 20 亿或 80 亿参数的小型模型,已经足够在设备端高效运行,并提供强大的功能,这一变化得益于设备计算能力的提升和模型优化技术的进步 。

此外,她还提到蒸馏技术发展也是一大关键。这项技术可以将一个功能强大的大型模型压缩成较小的模型,同时保留大部分能力,这种技术结合设备计算能力的提升,为小型模型的广泛应用奠定了基础。

相比云端运行,设备端运行生成式模型有许多显著优势。首先是实时性。用户希望与聊天机器人互动时能够立即收到响应,或者在社交媒体中添加滤镜时无需等待几秒钟加载。设备端运行能够显著减少延迟,为用户提供更加流畅和直观的体验。

然后是隐私保护。如果数据处理可以完全在本地完成,比如会议记录功能,大多数用户会更加愿意使用这些应用,而不用担心隐私数据被上传到服务器进行处理。

经济性和效率也是重要因素。虽然云端推理的成本正在下降,但设备端运行可以进一步优化开发者的效率,加快迭代速度,并降低一部分基础设施的依赖。

某些计算密集型任务可能仍需要云端支持,但许多日常应用场景完全可以通过本地模型实现,从而减少对网络和服务器的依赖。

她还提到,设备端模型的潜力正在释放,在未来我们可能会看到以下应用场景的广泛普及:

- 实时语音助手与对话 AI: 这些助手能够流畅地处理与用户的互动,例如个性化的 AI 教练或客户服务支持。

- 增强现实(AR)体验: 通过摄像头和生成式 AI 的结合,用户可以实时重新设计空间,例如更改墙纸、家具摆放等。

- 混合现实与创意表达: 生成 3D 模型和视频的新技术将改变我们与现实世界的互动方式,使得虚拟体验更加生动有趣。

- 可穿戴设备创新: 智能手表和其他可穿戴设备将通过小型化生成模型解锁更多个性化功能。

虽然设备端模型带来了诸多可能性,但仍面临一些挑战。例如,设备端模型需要随着硬件和应用的更新而同步迭代,开发和部署成本也可能有所增加。

另外,云端和设备端结合的经济模式需要重新设计,这将对整个供应链产生深远影响。(@有新 Newin)

更多 Voice Agent 学习笔记:

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

市场规模超 60 亿美元,语音如何改变对话式 AI?

2024 语音模型前沿研究整理,Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


RTE开发者社区
658 声望967 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。