开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq、@鲍勃
01 创业众筹|社区项目推荐
1、从网瘾少年到融资百万:我被一只球藻改变的人生!
十年前的你在做些什么呢
十年前有一位少年
把做作业的台灯让给了球藻
因为这颗绿球球
从此走上了创业的道路
“这一颗绿球球,
至少 三次改变了我的人生轨迹。
总能在我觉得山穷水尽的时候,
默默发光,
带给我希望。”
十年后这颗绿球球带来的 AI 陪伴软件
——「来萌APP」
因为资金问题无法迭代
目前正在发起众筹...
这个曾经的少年叫万一,他说:「2024年的夏天结束时,我们回归「陪伴与治愈」的核心。我给这个为 EMO青年 做的APP,取名 来萌LIMO。我体验过市面上的所有AI陪伴软件,都很 生硬 。他们像一个个没有新故事的NPC,死板地讨好你。我发现,不论AI角色,还是游戏和动漫的IP,一个角色是否鲜活,都来自 创作者是否用心 。我 不想做 一只顺从你,永远正确,没有变化的NPC宠物。球藻君应该是一个有自己个性和生活的AI伙伴。你依赖他,他也依赖你。 我突然有信心了,球藻君或许能成为AI界一个不一样的存在。我能做出那些 技术宅们 想不出的东西!」
(@球藻君MOLI)
02 有话题的技术
1、清华团队构建大型社会模拟器 AgentSociety ,可精确模拟社会舆论传播、公众政策响应等社会现象
清华团队开源了一个"人工社会"模拟系统:AgentSociety,它把 LLM 与传统社会行为理论结合,能真实的模拟人类行为及社会互动可以用来研究人类社会行为、模拟城市环境中的社会互动,测试各种社会场景和政策效果等。它整合了 LLM 的规划、记忆和推理能力,可以生成真实的行为模拟,支持马斯洛需求层次等理论模型,支持多种环境类型,基于数据集的、文本的或规则的,可以模拟不同程度的真实性和交互性
框架架构
- 模型层,负责智能体配置和任务管理
- 智能体层,管理记忆、决策和行动
- 消息层,处理智能体之间的通信
- 环境层,管理智能体与环境的互动
- LLM 层,集成大语言模型,OpenAI、Qwen 等
- 工具层,提供字符串处理、结果分析、数据存储和检索等各种实用工具
为了降低智能体间通信的系统开销,团队引入了智能体分组(Agent Group)机制,使多个智能体可以在单个进程中运行,从而减少进程间通信开销,提高计算效率。此外,为了实现大规模社会智能体的高并发、可靠消息传输,团队引入了 MQTT 通信协议,该协议广泛应用于物联网场景,具备高吞吐量和低延迟的特点,非常适用于大规模社会模拟中智能体间的信息交换。(@AIGCLINK@X、AIGC 开放社区)
2、月之暗面 Kimi 开源 MoE 模型
2 月 23 日,月之暗面发布最新论文《Muon is Scalable for LLM Training》,并首次开源了 MoE(混合专家)模型 Moonlight-16B-A3B,论文显示,月之暗面通过深度改造 Muon 优化器,并将其运用于实际训练,证明了 Muon 在更大规模训练中的有效性,是 AdamW 训练效率的 2 倍,且模型性能相当。据悉,本次论文所使用的模型为 Moonlight-16B-A3B,总参数量为 15.29B,激活参数为 2.24B,其使用 Muon 优化器,在 5.7T Tokens 的训练数据下获得上述成绩。目前,论文及 Moonlight-16B-A3B 相关内容已上架 Github 和 HuggingFace。(@APPSO)
03 有亮点的产品
1、中科闻歌发布智川 X-Agent 平台、优雅音视频大模型更新,领先技术加速 AI 普惠落地
2 月 22 日,中科闻歌 2025 AI 新产品线上发布会成功举办,升级发布「智川」企业智能体平台 1.0 与「优雅」音视频大模型平台 1.5,助力政企极速落地 AI 应用与创意灵感,让 AI 技术精细化满足真实业务场景,加速 AI 普惠落地。
智川 X-Agent:一站式企业智能体开发平台,个性化 AI 应用极速落地
核心功能
- 零代码 AI 应用搭建,10 秒定义专属智能体
- 10+先进大模型随心配,能力边界尽在掌控
- 可视化工作流编排,解锁 AI 应用无限可能
- 知识库自主管理,私域知识高效利用
- 支持创建自定义插件,智能体技能无限扩展
- 可视化运营,知识反哺自我进化
- 优雅平台:多模态内容智能生成平台,让你的灵感「优雅」实现
亮点功能
- 长视频一键拆分智能体,短视频批量速成
- 一键成片智能体,语义级别画面匹配
- 多语种视频翻译智能体,国际传播更高效
- 记者采写智能体,分钟级实现原创首发
- 智能体广场,灵活快速构建 AI 应用
- 丰富 AI 工具集,满足多样创意需求(@量子位)
2、00 后创办的 AI 招聘,融资 1 亿美元,估值 20 亿美元
Mercor,由三位 21 岁的 Thiel Fellows 创办的人工智能招聘初创公司,已在 B 轮融资中筹集了 1 亿美元,公司向 TechCrunch 确认了这一消息。
这一轮融资使得首席执行官 Brendan Foody、首席技术官 Adarsh Hiremath 和首席运营官 Surya Midha 成为一些最年轻的十亿美元初创公司的创始人。这家成立两年的平台,拥有彼得·蒂尔、杰克·多尔西和亚当·丹吉洛等投资者,表示最新的融资将帮助「加速其将数十亿人与他们的使命匹配的能力,充分发挥人类才能的潜力。」
成立于 2023 年,Mercor 利用人工智能简化招聘。 其平台自动化简历筛选、候选人匹配,提供人工智能驱动的面试和薪资管理。雇主上传职位描述,Mercor 的系统推荐最佳候选人。
Mercor 声称其自动化系统不仅简化了招聘流程,还消除了过程中的偏见。该声明声称,人工智能系统的偏见程度低于人类,这一说法并不总是成立。尽管如此,像 OpenAI 这样的科技公司已经在使用 Mercor 的自动化工具,该公司声称这些工具能够找到比其他人类更优秀的人选。
求职者完成一个 20 分钟的 AI 面试,评估他们的技能并创建个人档案。该平台随后将他们与相关的全职、兼职或小时工职位匹配。
Mercor 最初专注于招聘软件工程师和技术专业人员,涉及运营、内容创作、产品开发和设计 。Foody 表示,软件工程师仍然是 Mercor 目前最受欢迎的人才。但人工智能实验室越来越多地寻求其他专业人士——顾问、博士、银行家、医生和律师。(@Z Potentials)
3、全球产品界的奥斯卡,Product Hunt 2024 年金喵奖揭晓,众多华人 AI 产品上榜
Product Hunt 的 Golden Kitty Awards (金喵奖)是每年一度的全球新产品评选盛典,旨在表彰当年最具创新性、影响力和用户欢迎度的产品。该奖项通过社区投票和专家评审综合选出覆盖科技、工具、硬件等领域的年度最佳产品(如 ChatGPT、Figma 等曾获奖),其名人堂记录历届获奖作品,成为行业趋势风向标和创业者的荣誉殿堂。以下为 AI 硬件和音频类目中的一些产品:
(1)Friend :一款旨在陪伴用户、对抗孤独的 AI 穿戴设备。
(图片来源:Product Hunt)
https://friend.com/wearable/index.html
Friend 定位为一款旨在提供陪伴的 AI 穿戴设备,其核心价值主张是通过技术手段缓解孤独感。目标用户是需要情感支持、寻求陪伴的人群。该产品解决了现代社会日益严重的孤独问题,通过 AI 技术提供一种新型的情感连接方式。随着社会隔离现象的加剧,情感陪伴型 AI 产品具有广阔的市场需求。
Friend 的核心功能亮点在于其陪伴功能,但具体细节未充分展示。其差异化优势在于明确针对情感需求设计,有别于传统智能穿戴设备。用户体验方面,产品设计理念着重于提供友好的陪伴,但具体实现和体验效果需进一步了解。Friend 旨在通过 AI 技术提供情感支持,为用户提供一种新型的陪伴方式,具有一定的社会价值和市场潜力。(@Z Potentials)
(2)ElevenLabs :一款先进的文本转语音和语音克隆 AI 平台
(图片来源:Product Hunt)
ElevenLabs 定位为一款先进的 AI 语音平台,其核心价值主张是提供逼真且情感丰富的文本转语音服务,并支持语音克隆技术。目标用户是内容创作者、游戏开发者、电影制作人以及任何需要高质量语音解决方案的个人和企业。该产品解决了传统语音合成技术不够自然、缺乏情感的痛点,为用户提供了更具表现力和个性化的语音体验。随着数字内容创作的蓬勃发展,ElevenLabs 具有广阔的市场机会。
ElevenLabs 的核心功能亮点包括逼真的文本转语音、语音克隆和语音定制。其差异化优势在于其高质量的语音合成效果,能够模仿人类语音的细微差别和情感,以及其强大的语音克隆技术。(@Z Potentials)
(3)Voicenotes :一款智能 AI 笔记应用
(图片来源:Product Hunt)
Voicenotes 定位为一款智能笔记应用,其核心价值主张是通过 AI 技术简化笔记流程,并提供强大的信息回顾和整理能力。目标用户是需要高效记录、整理和回顾信息的知识工作者、学生、记者等。该产品解决了传统笔记方式效率低、信息难以回顾的痛点,提供了一种更便捷、智能的笔记解决方案。在信息爆炸的时代,高效的信息管理工具具有巨大的市场需求,Voicenotes 具有广阔的市场机会。
Voicenotes 的核心功能亮点包括语音转录、AI 问答和内容重组。其差异化优势在于其智能化的 AI 分析能力,可以对笔记内容进行总结、提取要点,甚至生成博客文章草稿。用户体验方面,Voicenotes 操作简单,界面直观,并且支持多平台使用,用户可以随时随地记录和回顾信息。(@Z Potentials)
(4)Vapi:一款为开发者提供语音 AI 基础设施的平台。
(图片来源:Product Hunt)
Vapi 定位为面向开发者的语音 AI 基础设施平台,其核心价值主张是简化语音机器人的开发流程,让开发者能够在几分钟内构建、测试和部署语音应用。目标用户是希望在自己的产品中集成语音 AI 功能的开发者和企业。该产品解决了传统语音机器人开发周期长、成本高的痛点,为用户提供了一种更快速、便捷的解决方案。随着语音 AI 技术的普及,Vapi 具有广阔的市场机会。
Vapi 的核心功能亮点包括简化的开发流程、灵活的定制选项和强大的客户支持。其差异化优势在于其易用性,以及对各种 LLM/STT/TTS 模型、Web SDK 的支持。(@Z Potentials)
(5)GPT-4o :OpenAI 推出的多模态 AI 模型
(图片来源:Product Hunt)
https://openai.com/index/hello-gpt-4o/
GPT-4o 定位为 OpenAI 的最新一代多模态 AI 模型,其核心价值主张是实现更自然、更流畅的人机交互,支持文本、语音和视觉输入。目标用户是开发者、企业和普通用户,他们希望利用先进的 AI 技术来构建各种应用,例如聊天机器人、虚拟助手和内容创作工具。该产品旨在解决传统 AI 模型在处理多模态输入方面的局限性,并提供更接近人类的交互体验。随着 AI 技术的不断发展,对多模态 AI 模型的需求日益增长,GPT-4o 具有广阔的市场机会。
GPT-4o 的核心功能亮点包括多模态输入支持、实时语音交互和增强的推理能力。其差异化优势在于其对多种模态的无缝集成,以及其在语音交互方面的显著改进。(@Z Potentials)
(6)Earth.fm :一款提供纯净自然声景的非营利应用,类似 Spotify,但专注于自然声音
(图片来源:Product Hunt)
Earth.fm 定位为一款非营利的自然声景应用,其核心价值主张是提供高质量、纯净的自然声音,帮助用户放松身心、连接自然。目标用户是喜爱大自然、需要放松减压、以及对冥想和心理健康有需求的人群。该产品旨在解决城市生活噪音污染、人们难以接触自然的问题,提供一种随时随地沉浸于自然的方式。随着人们对心理健康的日益重视,以及对自然环境的向往,Earth.fm 具有广阔的市场机会。
Earth.fm 的核心功能亮点包括 900+ 自然声景、声音地图和离线播放。其差异化优势在于其非营利性质、高质量的声音资源,以及对环境保护的支持。用户体验方面,Earth.fm 应用界面简洁,易于使用,并且提供多种分类和播放选项,用户可以根据自己的喜好选择不同的自然声景。(@Z Potentials)
(7)Airchat :一款社交语音对讲应用
(图片来源:Product Hunt)
Airchat 定位为一款社交语音对讲应用,其核心价值主张是提供便捷的语音交流体验,让用户随时随地与他人进行语音对话。目标用户是对语音交流感兴趣,并希望寻找新的社交方式的人群。该产品旨在解决传统社交媒体文字交流效率低、缺乏情感的痛点,提供一种更直接、更生动的交流方式。
Airchat 的核心功能是语音对讲,用户可以随时发起或加入语音频道。其差异化优势在于其语音交流的特性,以及 '社交语音对讲' 的概念。(@Z Potentials)
04 有态度的观点
1、英伟达 CEO 黄仁勋首度回应 DeepSeek 冲击:「对英伟达来说是一件好事」
在近日举办的 Beyond Artificial 大会上,英伟达 CEO 黄仁勋就近期备受关注的中国企业 DeepSeek 及 AI 行业发展发表了重要观点。他特别指出,市场普遍对 AI 应用架构存在一个误解,真正的 AI 应用应该包含三个同等重要的阶段:预训练、后训练(推理能力学习)以及实际推理过程。预训练阶段使用多模态数据学习基础知识;后训练阶段通过强化学习、人工反馈等方式培养模型的推理能力;而推理过程则需要模型进行复杂的思考和分析,包括并行试验和分步推理。
他强调,预训练虽然重要,但后训练对智能发展而言才是最关键的部分,因为这是将学到的知识应用于解决实际问题的过程。同时,推理过程本身也需要大量计算资源,因为 AI 在回答问题时需要进行多重推理和不断修正。
谈及 DeepSeek,黄仁勋认为其创新不会阻碍 AI 发展,反而会加速 AI 的应用扩展。「这对英伟达来说是一件好事,但从本质上说,所有的核心点都在于『应用层』的加速。」至于企业 AI 应用策略,黄仁勋提出了「多元并存」的观点。他建议,企业可以同时采用公有云 AI 服务和自研 AI 系统。对于通用服务,可以优先使用公有云上的现成解决方案;而在企业特定专业领域,则可以基于开源模型和工具开发专有 AI 系统。(@APPSO)
更多 Voice Agent 学习笔记:
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。