开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01 有话题的新闻
1、爱诗科技 PixVerse V3.5 版上线:最快 5 秒生成视频 动漫效果提升
爱诗科技宣布其核心产品 PixVerse 的 V3.5 版本正式上线,此版本带来了显著的性能提升和新功能。
新版本的 PixVerse 能够在最快 5 秒内生成视频,显著增强了运动控制力,为用户提供了更加流畅和精确的视频生成体验。此外,V3.5 版本在动漫效果上实现了大幅提升,支持多种风格随意切换,满足不同用户的个性化需求。
在视频质量方面,PixVerse V3.5 版本现在支持 1080p 高清画质,使得生成的视频更加细腻和生动。此外,新版本还支持首尾帧生成,实现了视频之间的丝滑过渡,进一步提升了视频的整体观感和专业度。
此前,爱诗科技宣布完成了近 3 亿元人民币的 A+轮融资。所得资金将主要用于提升技术研发能力、扩展算力资源以及建设人才团队,以加速产品功能迭代与市场覆盖,持续推动 AI 视频生成技术的普惠发展。(@AIbase 基地)
2、中国开源首个百万级机器人数据集,具身智能迎来 ImageNet 时刻
智元机器人携手上海人工智能实验室等机构,重磅发布 AgiBot World 数据集,这是全球首个基于真实场景的百万级机器人数据集。相较谷歌的 Open X-Embodiment,其长程数据规模提升 10 倍,场景覆盖扩大 100 倍,数据质量达到工业级标准。
这个被誉为具身智能领域「ImageNet 时刻」的开源项目展现了令人惊叹的机器人能力。从客厅插花到厨房做饭,从超市收银到工厂分拣,AgiBot World 涵盖了家居、餐饮、工业、商超和办公五大核心场景,收录了八十余种日常生活技能。
在硬件配置上,机器人配备了 360 度环绕式摄像头、六自由度灵巧手和高精度触觉传感器,全身最高可达 32 个自由度。这些先进的硬件设施使机器人能够完成从简单的抓取放置到复杂的双臂协同操作等多样化任务。
数据质量控制方面,AgiBot World 建立了严格的标准体系:
- 任务设计邀请多方专家把关
- 采集过程全程专业团队监管
- 数据审核采用端云双重筛选
- 所有动作都经过逐帧人工审核
- 通过算法验证确保数据可用性
智元还透露了 2025 年的规划蓝图,包括开源全量数据、发布仿真数据集、推出具身基座大模型、发布完整工具链,并将举办一系列挑战赛。这一系列举措有望加速具身智能的发展,推动机器人技术在现实生活中的广泛应用。(@AIbase 基地)
3、ModernBERT 模型公布,接任「Hugging Face 下载榜第二」2018 年经典原版
Hugging Face、英伟达和约翰霍普金斯大学研究人员联手为 Hugging Face 上的热门编码器模型 BERT 推出了全新版本 ModernBERT,号称在满足效率的同时新增支持处理长达 8192 个 Token 的上下文。
开发团队表示,尽管 BERT 模型自 2018 年发布以来仍被业界广泛使用,并且是 Hugging Face 上下载量第二大的模型(仅次于 RoBERTa),每月下载量超 6800 万次,但这款模型如今已有些落后。
在 BERT 模型首次发布 6 年后的今天,Hugging Face 和其他团队借鉴了近年来业界 LLM 的进展,对 BERT 模型架构和训练过程进行改进,最终公布了 ModernBERT 模型以接替原版 BERT 模型。
据悉,相关开发团队使用了 2 万亿个 Token 来训练 ModernBERT,使得该模型在多种分类测试和向量检索测试中都达到了目前业界领先水平,目前开发团队共计公布了两个版本的模型,分别是 1.39 亿参数和 3.95 亿参数版本。(@IT 之家)
4、灵初智能发布首个基于强化学习的端到端具身模型 Psi R0,双灵巧手协同进行复杂操作
灵初智能发布首个基于强化学习(RL)的端到端具身模型 Psi R0,该模型支持双灵巧手协同进行复杂操作,将多个技能串联混训,生成具有推理能力的智能体,从而完成并闭环长程灵巧操作任务。并且,Psi R0 还可以实现跨物品、跨场景级别的泛化。
以电商场景为例,商品打包是典型的长程任务作业,需对上万件商品进行抓取,扫码,放置,塑料袋打结等多个操作。Psi R0 能够使用双灵巧手流畅地完成这一系列动作(官方称此系列动作在客户现场可以取代一个完整工位),成为首个基于强化学习训练完成长程灵巧操作任务的具身机器人。
官方表示,基于 RL 的 Psi R0 模型,使用海量仿真数据训练出双手操作的智能体,并通过双向训练框架串联多技能,在业界率先完成开放环境中的长程任务,具备较强的泛化能力与较高的鲁棒性(robustness)。
这一技能训练框架从物体时空轨迹抽象出关键信息以构建通用目标函数,从而解决奖励函数难设计的问题。在后训练阶段,通过少量高质量真机数据对齐,进一步提升长程任务的成功率。
除此之外,双向训练框架中的转移可行性函数发挥着重要作用,它能够微调技能以提高串联的成功率与泛化性,同时赋予模型自主切换技能的能力,使其在遭遇操作失败时能够迅速调整策略,确保高成功率。(@IT 之家)
02 有亮点的产品
1、Sense 发布对话语音 AI,通过自动电话呼叫转变候选人互动
Sense 对话语音 AI 简化了招聘、筛选和安排流程,使招聘人员能够扩大外联并提升候选人体验。
人工智能驱动的人才招聘解决方案的领先创新者 Sense 隆重推出了 Sense Conversational Voice AI,这是一款开创性的产品,通过智能对话式 AI 实现了候选人电话对话的自动化。这项先进的技术为 Sense 平台增加了一个强大的语音渠道,为招聘人员提供了一个全面的解决方案,可自动完成寻源、筛选、日程安排等工作,同时提供卓越的候选人体验。
「现代招聘人员的任务是同时填补多个职位,同时为每位候选人提供快速和个性化的体验,」Sense 首席执行官 Anil Dharni 说。「借助 Sense 对话语音人工智能,招聘团队现在可以每天与数千名候选人互动,加快招聘流程,并为每位候选人提供卓越的体验。」
Sense 对话语音 AI 与 Sense 强大的招聘自动化、聊天机器人和消息产品集成。这个无缝连接使招聘人员能够通过动态语音互动来补充他们的外展和沟通工作。
- Sense 对话语音 AI 的功能:
- 人工智能驱动的招聘和匹配 - 自动将合格候选人与可用职位匹配,并通过自动电话联系。
- 预筛选和调度自动化 - 进行预筛选对话并协调面试,节省招聘人员数小时的手动工作。
- 品牌化的上下文电话 - 电话来自组织的电话号码,并在来电显示上显示公司的名称,从而提高转化率和接听率。
- 语言适应性 - 自动检测并以候选人首选语言进行沟通,支持全球招聘计划和多语言推广。
- 智能招聘人员洞察 - 将成绩单、对话摘要和参与评分导入 Sense CRM 和/或集成的 ATS,以便招聘人员在未来的对话中有背景信息。
- 自动化参考检查 - 联系参考以验证过去的就业情况并收集对候选人的反馈。
Sense 今年早些时候向包括 TSR 咨询服务在内的部分客户发布了对话语音人工智能的试点项目。作为一家以提供优质服务而自豪的顶级人力资源公司,TSR 利用对话语音人工智能在大规模上提供个性化的候选人互动。(@ yahoo finance)
2、X-ORIGIN-AI 完成数千万融资,打造 AI 陪伴机器人
近日,X-ORIGIN-AI 宣布成功完成数千万元人民币的天使轮融资,此轮融资由阿尔法公社领投,多名产业投资者参与跟投,仁辰资本则担任独家财务顾问。此次融资所得资金将主要用于技术研发、人才招聘及市场拓展,旨在进一步推动其全场景消费级 AI 机器人产品的研发与落地。
X-ORIGIN-AI 专注于开发伴随人类生命周期的全场景消费级 AI 机器人产品,其首款产品主要面向儿童,旨在通过智能交互技术为儿童提供情感陪伴与学习支持。这款 AI 陪伴机器人符合现代家庭对智能化育儿工具的需求,预计将为家庭教育带来新的变革。
作为此次融资的领投方,阿尔法公社对 X-ORIGIN-AI 在 AI 机器人领域的创新潜力表示乐观,并期待该公司未来推出更多具有市场影响力的产品。X-ORIGIN-AI 团队表示,将持续加大技术研发力度,加速产品迭代,为消费者提供更智能、更贴心的 AI 机器人体验。(@AIbase 基地)
03 有态度的观点
1、谷歌 CEO 皮查伊:明年风险高、赌注大,推广 Gemini 是首要任务
据美媒 CNBC 今日报道,谷歌 CEO 皮查伊上周告诉员工 2025 年「风险高、赌注大」,因为公司面临着日益激烈的竞争、监管障碍以及 AI 的快速发展。
皮查伊表示,「我认为 2025 年将是关键的一年。我们需要深刻认识到当前的紧迫性,并加快公司步伐。这是一个具有颠覆性影响的时刻,我们必须专注于推动技术带来的变革,解决用户的实际问题。」
他还认为,打造包括 Gemini 应用的「大型新业务」是重中之重。高管们表示,他们认为 Gemini 将成为谷歌下一个达到 5 亿用户的应用(该公司目前有 15 款应用达到了这一里程碑)。「Gemini 应用发展势头强劲,尤其是在过去几个月。但我们在 2025 年还需要做一些工作来缩小差距,并确立领先地位。」
他后来补充道:「明年,在消费者端推广 Gemini 将是我们的首要任务。」此外,皮查伊展示了一张大语言模型图表,其中 Gemini1.5 领先于 OpenAI 的 GPT 和其他竞争对手。「我预计 2025 年会有一些来回拉锯。我认为我们将达到最先进的水平。历史上,你并不总是需要成为第一,但你必须执行得很好,成为同类产品中最好的。我认为这就是 2025 年的意义所在。」
根据其规划,明年谷歌将最关注 Gemini 在消费者端的扩展。(@IT 之家)
更多 Voice Agent 学习笔记:
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记
2024 语音模型前沿研究整理,Voice Agent 开发者必读
从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?
人类级别语音 AI 路线图丨 Voice Agent 学习笔记
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。