开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01 有话题的技术
1、Google 发布三款基于 Gemma 的模型变体:MedGemma、SignGemma 和 DolphinGemma,分别面向医疗、手语和动物语言领域
MedGemma 包含 4B 多模态模型和 27B 文本模型,能处理医学图像分类、报告生成和临床文本推理,可在单 GPU 上运行。
4B 多模态模型:能同时处理图像+文本,支持 X 光、病理切片、眼底图像等。
27B 文本模型:可以文本推理,比如问诊摘要、诊断建议、临床辅助决策等。
- 模型的图像编码用的是 SigLIP;
- 预训练数据涵盖 X 光、皮肤科、眼科、病理全链条;
- 支持 LoRA 微调,能嵌入代理系统,比如接到 Gemini 语音或 FHIR 结构化数据上,做真正「端到端」的智能诊疗。
SignGemma 这款模型针对的是 ASL(美式手语),能把手语视频翻译成多语种文本。目前还没完全开放。
DolphinGemma 是用来预测和生成海豚语言信号的模型。该模型是 400M 参数的音频到音频模型,可以模仿「海豚语言」的连续性预测模式。此模型研究目标:
- 模拟「签名哨音」「爆发脉冲」等自然声音,用 AI 去分类和生成;
- 基于上下文预测下一段海豚语,思路和「预测下一个词」一样;
- 与 Georgia Tech 合作开发 CHAT 系统:海豚模仿哨音 -> 请求物品 ->
研究人员收到「骨传导翻译」响应。(@腾讯研究院、@研究员老鬼)
2、北航提出语言交互无人机控制模型
北航刘偲教授团队提出了一种创新的无人机控制模型,利用语言引导实现无人机的细粒度轨迹控制,命名为 Flying-on-a-Word(Flow)范式。该研究通过模仿学习,使无人机能够理解简短的自然语言指令并执行相应的飞行动作。这一模型的成功部署在北京航空航天大学的开放场景中验证了其可行性。研究团队还构建了一个大规模的语言引导无人机模仿学习数据集,并提出了一套针对无人机计算资源限制的协作策略,以保证控制的连贯性。这项研究为未来的智能无人机系统奠定了重要基础。
相关链接:https://arxiv.org/abs/2505.15725
相关链接:https://prince687028.github.io/UAV-Flow/ (@果比 AI、@GitHub)
02有亮点的产品
1、Project Astra:AI 驱动的学习支持与辅导系统
Project Astra 是谷歌 DeepMind 推出的一项多模态 AI 助手项目,旨在通过手机或智能眼镜等设备让用户在日常生活中应用 AI 技术并获得体验和效率提升。
Project Astra 能够提供全方位的学习支持服务,包括作业辅导、教学指导、习题错误分析,并通过生动直观的图表帮助用户深入理解复杂概念。
- 本地音频对话:能够识别不同的口音、语言和情绪,并以 24 种语言流畅回应;
- 即时响应:Project Astra 可以快速地启动对话,并即时响应——无中断或延迟;
- 上下文感知对话:能够忽略干扰,如背景对话和无关的语音;
- 工具调用:使用搜索、Gmail、日历、地图和界面控制等工具为用户完成任务;
- 高亮显示:理解上下文中的对象,使用屏幕高亮显示向用户展示重要内容;
- 个性化配置:Project Astra 能够学习并保留用户偏好,以提供个性化答案——并且能够解释指导其答案的思路。
Project Astra 链接:https://deepmind.google/project-astra (@Project Astra、@Google@YouTube)
2、RWKV Talk:支持中英日韩四种语言的离线声音合成,内置 20 种可用配音
5 月 22 至 24 日,元始智能同时参加了澳门 BEYOND EXPO 以及 2025 全球人工智能终端展,并首次公开展示基于 RWKV-7 模型的 5 款端侧 AI 应用 demo,呈现人工智能模型在离线环境下的技术突破。
- RWKV Talk:声临其境
RWKV Talk 支持中英日韩四种语言的离线声音合成,内置 20 款不同性格、不同音色的高清 CV(角色配音)。还支持通过声音克隆功能,上传音频或即时录音生成个性化声音。在文本输入时,可添加语气词,使合成语音更自然流畅。
RWKV Talk 下载链接:
Android: https://www.pgyer.com/rwkv-talk
iOS: https://testflight.apple.com/join/mfsdWS4b(注:RWKV Talk 的模型现为预览版,后续会显著更快)
- RWKV See:释你所视
视觉是信息获取的重要组成部分,RWKV See 搭载的 RWKV-7 图像识别模型结合 OCR(光学字符识别)可在离线状态下对图片进行实时解析。仅需随手一拍,模型即可对「图像+文本」进行深入的思考和推理,并完成相关的问答。
RWKV See 下载链接:
Android: https://www.pgyer.com/rwkv-see
iOS: https://testflight.apple.com/join/vAjawMJc(注:RWKV See 的模型现为预览版,后续会显著更快)
- RWKV 作曲家(RWKV Music)
在展会上元始智能还展示了 RWKV 作曲家(RWKV Music),一款基于 RWKV 大模型的 AI 作曲应用。依托端侧算力,无需联网。静谧的山林或喧嚣的都市,只要灵感闪现,就能一键捕捉。此次 RWKV 作曲家全新升级,可修改单一音符时值,旋律随机律动,让交互更加个性化。
随着 RWKV 音乐算法备案的完成,RWKV 作曲家现已上线 Mircrosoft Store、App Store、Google Play 以及各大安卓应用市场。
RWKV 作曲家 下载链接:
官网: https://rwkvos.com/rwkv-music
各应用市场搜索:RWKV 作曲家 / RWKV Music(@RWKV 元始智能)
3、李未可 View AI 拍摄眼镜发布,机身重量仅为 38 克,支持近 180 种语言
5 月 26 日,李未可科技正式推出「李未可 View AI 拍摄眼镜」,售价为 1999 元(首发特惠价 1699 元)。
李未可 View AI 拍摄眼镜外观与普通墨镜类似,机身重量仅为 38 克;另外,李未可 View AI 拍摄眼镜在镜片防护等级上也做到了 IP5X 防尘和 IPX4 防泼溅。
李未可 View AI 拍摄眼镜搭载了第一代高通骁龙 AR1 平台,配备 1200 万像素的 IMX681 摄像头。
AI 表现上,基于第一代骁龙 AR1 平台提供的终端侧 AI 能力,李未可 View AI 拍摄眼镜拥有强悍的 AI 翻译系统,支持近 180 种语言,覆盖了英语、西班牙语、阿拉伯语、印度语等几大语系的不同国家语言。
值得一提的是,李未可科技由茹忆于 2021 年创立。茹忆曾是中国大陆第一款安卓智能手机「明」的开发工程师之一,而后成为小米电视联合创始人;2016 年其加入阿里,打造了天猫精灵 3000 万台销量的行业神话。(@APPSO)
03Real-Time AI Demo
1、BLACKBOXAI :具备语音功能的 AI 编码智能体
来自 X 的@Rich15949740:通过语音操作您的代码库
BLACKBOXAI 是一个能够通过语音操作代码库的语音编码智能体,让用户通过语音指令直接操作代码库,无需手动输入代码。
它能够同时调用 GPT、Gork、Gemini、Claude 等多个大型语言模型,用户可以选择最适合当前任务的模型,提供更准确的代码生成和问题解决方案。这一技术显著提升了编程效率,特别多任务处理者以及希望提高编码速度的开发人员使用。
体验链接:https://www.blackbox.ai/ (@tec_aryan@X、@logesh_umapathi@X)
2、一个基于 webXR 和 Threejs 的 AR 交互原型
来自 X 的@dmvrg:AR UX:文件夹是通往 AR 空间的入口,一个基于 webXR 和 Threejs 的快速原型。
04有态度的观点
1、马斯克:AI 将替代传统搜索
昨日,马斯克在个人社交账号上转发了一份关于全球搜索引擎份额的报告,其配文「AI 将替代搜索」,并 @ 了自家 xAI 旗下的 AI 聊天机器人 Grok。
据马斯克转发的报告显示,Google 搜索自 2015 年以来,市场份额首次跌破 90%,降至 89.71%。报告称,用户已经厌倦了夹杂在答案中的 SOE(搜索引擎优化)和广告内容,并强调「AI 搜索正在蚕食 Google 的市场份额」。
值得一提的是,Google 此前因违反美国反垄断法而被起诉。而苹果还曾与 Google 签订了一项每年估值 200 亿的协议,该协议旨在让 Google 成为 Safari 的默认搜索。
但苹果服务高级副总裁 Eddy Cue 同样不看好传统搜索引擎,其指出,今年 4 月 Safari 的搜索量首次出现了下降,其将此归因人们使用 AI 搜索。
Cue 表示,他认为 AI 搜索引擎(如 OpenAI、Perplexity AI)最终会取代 Google 这样的传统搜索引擎。Cue 认为,苹果未来会在 Safari 中添加 AI 搜索。 (@APPSO)
2、IBM 高管:2025 年是 AI Agent 规模应用的「拐点时刻」
日前,IBM 大中华区技术销售总经理、首席技术官翟峰发布文章,对 2025 年的 AI Agent 发展进行了总结与预测。
翟峰在文中提到,2025 年将迎来 AI Agent 的爆发。其解释称,业界这一判断与大语言模型(LLM)等技术领域的突破息息相关。
据悉,Agent 的核心在于自主性和规划能力,它们需要具备逻辑推理、工具调用能力和执行任务的能力,而且需要实现高速、规模化的运作。
而近两年来,更多企业对模型的研发开始转向「速度更快、计算资源需求更小,具备更强逻辑推理、上下文理解以及外部交互能力」的中小型模型,加上思维链训练、扩展的上下文窗口和函数调用能力,翟峰综合上述信息总结道,这些关键突破意味着 AI 智能体在 2025 年的爆发已经具备了技术基础。
对于 AI Agent 的未来,翟峰表示,「发展已经势不可当,但理想与现实之间往往存在有待跨越的鸿沟。」因此翟峰提到,要构建自主处理复杂决策的 AI Agent,仅靠算法层的优化是不够的,还需要在上下文推理、边缘案例测试等方面取得突破。
另外,翟峰还强调,人类必须用「以人为本」的思想对「技术至上」的倾向进行纠偏:Agent 虽然具备自主能力,但绝不意味着人的全方位撤退。对此,翟峰认为,Agent 在未来将扮演「赋能」的角色,成为人类主导的集约化工作流中的协作者。(@APPSO)
更多 Voice Agent 学习笔记:
级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。