谷歌为与海豚交谈创建了一个新的人工智能模型

发布于 4 月 14 日

主要观点：海豚被认为是地球上较聪明的生物，科学家一直试图理解它们复杂的交流方式，谷歌借助开放 AI 模型和 Pixel 手机助力研究。
关键信息：

海豚能合作、教新技能、认镜中自己，科学家多年来研究其交流用的哨声和 clicks。
野生海豚项目（WDP）自 1985 年用非侵入式方法研究大西洋斑点海豚，创建相关记录和笔记。
WDP 主要目标是分析海豚发声方式及对社交互动的影响，已将一些基本活动与特定声音联系起来。
终极目标是与海豚交流，WDP 创建标注数据集，谷歌用其与生成式 AI 合作。
DolphinGemma 基于谷歌 Gemma 开放 AI 模型，用 SoundStream 技术将海豚发声 tokenize 后输入模型，训练使用 WDP 声学档案，是音频输入输出模型。
团队用 Pixel 手机和 CHAT 设备在野外观察海豚，新 Pixel 9 能让 CHAT 同时运行深度学习和模板匹配算法，DolphinGemma 输出暂不直接给海豚听。
DolphinGemma 是开放项目，今夏将向全球研究者发布，可针对其他鲸类物种微调。
重要细节：
谷歌一直在将生成式 AI 融入各项业务，包括与 WDP 的合作。
大西洋斑点海豚有像名字的签名哨声和战斗时的“squawk”声模式。
DolphinGemma 约有 4 亿参数，规模在典型 LLM 中较小。
演示 CHAT 系统的视频链接。

阅读 6