开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq,@鲍勃
01有话题的技术
1、Zyphra 发布 Zonos-v0.1:领先的开源文本到语音模型,支持多语言和高保真声音克隆
Zyphra 发布的 Zonos-v0.1 是领先的开放权重文本到语音模型,提供与顶级 TTS 提供商相当甚至更出色的表现力和质量。它能够在给定说话人嵌入或音频前缀的情况下,从文本提示生成高度自然化的语音。只需 5 到 30 秒的语音,Zonos 就能实现高保真度的声音克隆。它还允许根据说话速度、音调变化、音频质量和悲伤、恐惧、愤怒、快乐和喜悦等情绪进行条件化。该模型以 44kHz 的采样率原生输出语音。
主要功能:
- 零样本语音克隆 TTS:输入所需文本和 10-30 秒的说话人样本,生成高质量的 TTS 输出
- 音频前缀输入:添加文本和音频前缀,以实现更丰富的说话人匹配。音频前缀可用于引发如耳语等难以从纯语音克隆中获得的举止
- 多语言支持:Zonos-v0.1 支持英语、日语、中文、法语和德语
- 音频质量和情感控制:Zonos 提供了对生成音频许多方面的精细控制。这包括说话速度、音调、最大频率、音频质量以及各种情感,如快乐、愤怒、悲伤和恐惧。
- 速度快:模型在 RTX 4090 上运行时,实时性因子约为 2 倍
- WebUI gradio 界面:Zonos 附带了一个易于使用的 gradio 界面,用于生成语音
- 简单安装和部署:Zonos 可以通过使用仓库中打包的 Docker 文件简单安装和部署。
(@Hugging Face)
2、北航推出开源 TinyLLaVA-Video 模型:小尺寸多模态视频理解框架
北京航空航天大学的研究团队最近发布了一个名为 TinyLLaVA-Video 的开源视频理解框架。该框架基于 TinyLLaVA_Factory 项目,专为计算资源有限的环境设计,其模型参数不超过 4B,却能在多个视频理解基准测试中超越现有的 7B+模型。TinyLLaVA-Video 采用模块化设计,允许用户根据需求替换语言模型、视觉编码器等组件,并自定义训练策略。项目不仅公开了完整的模型权重、训练代码和训练数据集,还提供了高质量的数据基础,以支持研究者在合理的训练时间内复现实验结果并开展进一步研究。这一框架的推出,为轻量级视频理解模型的训练范式与架构创新提供了实验平台,有助于推动小尺寸视频理解模型的持续发展。
论文地址:
https://arxiv.org/abs/2501.15513Github
项目:
https://github.com/ZhangXJ199/TinyLLaVA-Video(@机器之心)
3、香港大学发布突破性视频生成模型 Goku,引领市场营销新潮流
香港大学联合字节跳动公司发布了一款名为 Goku 的视频生成模型,该模型基于 rectified flow Transformer 架构,专为图像和视频的联合生成而设计。Goku 模型不仅支持文本生成图像和视频,还推出了 Goku+,一个针对广告场景优化的视频广告基础模型,声称能以比原来低 100 倍的成本创建广告视频。
Goku 模型在多项评估中取得了优异成绩,例如在 GenEval 上的得分为 0.76,在 DPG-Bench 上的得分为 83.65,在 VBench 上的文本到视频生成任务中得分高达 84.85,刷新了多个领域的最新记录。
此外,Goku 模型在生成商品广告方面表现出色,无论是展示食品还是化妆品,人物表情和动作都显得非常逼真自然。该模型还能够将一张商品图和文字提示结合起来,生成带人物交互讲解的视频,为市场营销和社交媒体内容创作者提供了一个强大的新工具。
Goku 模型的成功发布,预示着 AI 视频生成技术将迈入一个新的发展阶段,引起了网友们的广泛关注和讨论,许多人认为 Goku 和 Goku+是颠覆性的创新,将 AI 视频生成推向了下一个水平。(@量子位)
4、LG 的 Exaone AI 模型以成本效率匹敌 DeepSeek
近期,美国知名研究机构 Epoch AI 发布了一份报告,正式将 LG 的 Exaone3.532B 模型评选为 「值得注意的 AI」 之一,并在成本效率方面表现尤为突出,与中国的 DeepSeek 不相上下。
LG Exaone3.5 模型于 2023 年 12 月正式推出,其开发投资约为 70 亿韩元(约合 480 万美元),这一成本低于 DeepSeek 开发其 V3 模型所花费的 600 万美元。Epoch AI 的评估标准主要考虑了模型的性能、使用频率等因素,而这也是两年来首个获得此类认可的韩国 AI 模型,显示了 LG 在人工智能领域的突破性进展。
LG AI 研究所的负责人裵庆勋在科技部主办的一次会议上表示,Exaone 模型经过多次优化,旨在提高其在实际工业应用中的效率。最初的 Exaone1.0 模型于 2021 年底推出,参数数量高达 3000 亿,而最新的 3.5 版本则将参数缩减至 320 亿,这一缩减不仅提高了模型的效率,也显著降低了运行成本。
目前,Exaone 模型已在 LG 集团的生成式 AI 服务 ChatExaone 中投入使用,员工们正在积极利用这一工具提升工作效率。此外,Epoch AI 的报告中还提及了其他几家韩国公司和高等院校的 AI 模型,包括 Naver、三星电子,以及首尔国立大学、韩国科学技术院、延世大学和高丽大学等,它们也均跻身于值得注意的 AI 模型行列,显示了韩国在全球 AI 技术竞赛中的实力。(@AIbase 基地)
5、通义音乐生成技术 InspireMusic:一款集音乐生成、歌曲生成、音频生成能力为一体的开源 AIGC 工具包
InspireMusic 是由通义实验室开源的音乐生成技术,旨在打造一款集 音乐生成、歌曲生成、音频生成能力 为一体的开源 AIGC 工具包。
为研究者和开发者提供音乐/歌曲/音频生成模型的训练和调优工具及模型,方便优化生成效果;同时为音乐爱好者提供一个易于使用的文本生成音乐/歌曲/音频创作工具,可通过文字描述或音频提示来控制生成内容。
目前,InspireMusic 已开源了音乐生成的训练和推理代码,支持通过简单的文字描述或音频提示,快速生成多种风格的音乐作品。InspireMusic 的 文生音乐创作模式 涵盖了多种曲风、情感表达和复杂的音乐结构控制,提供了极大的创作自由度和灵活性。未来计划进一步开放歌唱生成和音频生成的基础模型,欢迎研究者、开发者及用户积极参与体验和研发。该开源工具包为社区开发者提供了丰富的技术资源,支持从学术研究到产品开发的广泛应用。
主要特点:
- 统一的音频生成框架: 基于音频大模型技术,InspireMusic 支持音乐、歌曲及音频的生成,为用户提供多样化选择;
- 灵活可控生成: 基于文本提示和音乐特征描述,用户可精准控制生成音乐的风格和结构;
- 简单易用: 简便的模型微调和推理工具,为用户提供高效的训练与调优工具。(@阿里语音 AI)
02有亮点的产品
1、「Apple 智能」或即将在国内上线,苹果举行开发者活动
苹果公司即将在中国推出其人工智能助手 Apple Intelligence 的中文版,这一消息引起了广泛关注。Apple Intelligence 是苹果公司推出的 AI 功能套件,已成为苹果未来一段时间内多个操作系统的开发重点。尽管 Apple Intelligence 有望在 iOS 18.4 开始支持中文,但这并不意味着该功能会立即在中国大陆地区正式上线,因为语言支持并不等同于功能落地,可能涉及到一些审批,可能需要更长时间才能在国内开放。
苹果公司于 2025 年 1 月 10 日在中国成立了名为苹果技术开发(上海)有限公司的新公司,注册资本 3500 万美元,这一布局让人联想到苹果可能通过这家公司加速推动 AI 服务在国内的落地。此外,苹果计划于 3 月 25 日在上海举行「深入探索 Apple 智能和机器学习」开发者线上活动,这可能暗示了 Apple Intelligence 也会在 3 月 25 日左右正式上线国内。
库克在财报电话会议中明确表示,Apple Intelligence 将在今年 4 月新增对包括中文在内的多种语言的支持。iOS 18.4 的首个 Beta 测试版本预计将在下周向开发者推送,其中 Siri 智能化程度将获得增强,例如通过识别用户的背景信息进行个性化响应、支持屏幕感知,以及在不同应用之间执行复杂操作。(@科技兽)
03有态度的观点
1、谷歌 CEO:现在就是 AI 创新,黄金年代
今天凌晨 3 点,谷歌和 Alphabet 首席执行官 Sundar Pichai,在正在法国巴黎举办的全球 AI 峰会上发表了重要演讲——现在就是 AI 创新的黄金年代。
Pichai 认为,AI 技术正在经历快速的进步,成本大幅下降尤为显著。在过去 18 个月中,处理 token 的成本从每百万个 4 美元降至 13 美分,降幅高达 97%。
在科学领域,AI 也取得了重大突破。例如,谷歌发布的蛋白质模型 AlphaFold,帮助全球超过 250 万研究人员开发新的疟疾疫苗和癌症治疗方法。谷歌在量子计算方面也取得了重要进步,其最新的 Willow 量子芯片在不到五分钟的时间内解决了一个经典计算机需要十亿亿年才能解决的超难问题。
从击败人类围棋顶级高手的 AlphaGo Zero,再到蛋白质模型 AlphaFold,以及改变世界 AI 走势的 Transformer,谷歌作为全球 AI 领导者之一,愿意继续参与并引领这个 AI 创新黄金年代。(@AIGC 开放社区)
更多 Voice Agent 学习笔记:
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记
2024 语音模型前沿研究整理,Voice Agent 开发者必读
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。