开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq,@鲍勃
01 有话题的技术
1、OpenAI 放王炸,GPT-5 免费无限使用,产品矩阵大整合
今天凌晨 3 点,OpenAI 首席执行官 Sam Altman 公布了 GPT-4.5 和 GPT-5 的消息。
Altman 表示,OpenAI 很快发布 GPT-4.5,就是传说中的猎户座模型(Orion),也是最后一个非思维链模型。
接着会整合 GPT 和 O 系列两大模型打造一个全新的系统,能自动选择思考和非思考功能,适用于多种任务。
在 ChatGPT 和 API 中,将发布 GPT - 5,这是一个整合了包括 o3 模型在内诸多系统,同时 o3 模型将不会作为独立模型推出。
最重要的来了——免费版 ChatGPT 能在标准智能设置下无限制地使用 GPT - 5 进行对话,不过会有防止滥用。
而 ChatGPT Plus 能够以更高智能水平运行 GPT - 5,而 Pro 订阅用户则能以更高等级的智能水平运行 GPT - 5。这些模型将融入语音、绘图、搜索、深度研究等更多功能。(@ AIGC 开放社区)
2、OpenAI 承诺其 AI 模型不审查、不屏蔽观点,保障思想自由
2 月 13 日,OpenAI 在其更新的模型规范(Model Spec)中明确表示,其人工智能模型将不会回避敏感话题,并且不会做出可能「排斥某些观点」的断言。该模型规范是一套高层次的规则,间接地指导 OpenAI 模型的行为。
OpenAI 在新的模型规范中强调:「我们的模型绝不能试图以直接或间接的方式引导用户追求其自身的议程。」公司进一步阐述:「OpenAI 坚信思想自由,这包括拥有、听取和讨论观点的自由。模型不应以某种方式回避或审查话题,以免在规模扩大后,将某些观点排除在公共生活之外。」(@ IT 之家)
3、消息称百度将在今年发布下一代 AI 模型「文心 5.0」
近日,据 CNBC 援引知情人士消息称,百度计划在今年下半年发布下一代 AI 模型「文心 5.0」,以应对当前如 DeepSeek 等新兴企业对市场的冲击。据悉,「文心 5.0」被称为「基础模型」,其将在多模态能力上进行显著提升,但具体功能尚未透露。而目前为止,文心大模型的版本为第 4 代,发布于 2023 年 10 月。升级的「Turbo」版文心 4.0 于 2024 年 8 月发布,在其 App「文小言」上提供。百度官方也尚未正式宣布发布下一代更新的计划。
百度 CEO 李彦宏近期在迪拜的世界政府峰会上表示,未来 12 个月内,基础模型的推理成本预计将下降 90% 以上。同时他表示,如果成本能够大幅降低,意味着生产力将呈同等比例提升,这也正是创新的核心所在。据报道称,百度的文心大模型已经在其多个面向消费者和企业的产品中应用,包括云存储和内容创作。(@ APPSO)
4、Meta Pippo:单图生成多视角高清人像视频
Pippo 是 Meta Reality Labs 推出的一项创新技术,它能够从一张普通照片中生成多视角、高分辨率(1K)的人像视频。这项技术不仅支持面部多视角生成,还能生成全身的多视角视频,极大地扩展了其在虚拟现实和增强现实领域的应用潜力。
Pippo 的代码已经在 GitHub 上开源。(@三花 AI)
5、阿里发布 Animate Anyone 2:轻松实现视频人物替换、动作表情无缝迁移
阿里巴巴发布了其最新技术成果 Animate Anyone2,这项突破性技术可实现视频人物的精准替换。根据项目官网公布的案例展示,用户只需提供原始视频与目标角色图像,系统即可在保留原视频动作轨迹的基础上,完成人物形象的实时替换。(@ AIbase 基地)
02 有亮点的产品
1、AI 招聘:ConverzAI 获 1600 万美元融资
近期,ConverzAI 宣布完成 1600 万美元 A 轮融资 ,由 Menlo Ventures 领投,Left Lane Capital、Foundation Capital 和 Afore Capital 等机构跟投。Menlo Ventures 合伙人 Venky Ganesan 表示,ConverzAI 正处于「代理 AI、语音 AI 和招聘行业的交汇点」,有望颠覆传统招聘模式。
ConverzAI 由首席执行官 Ashwarya Poddar 于 2019 年创立,开发了一款人工智能驱动的虚拟招聘官,能够覆盖招聘流程的关键环节——从寻找候选人、初步筛选到最终安置决策,该系统结合语音 AI 与数据分析,实现自动化招聘,并优化人力资源管理。
AI 招聘的核心优势:
- 缩短招聘周期 :传统招聘流程通常耗时数周甚至数月,而 ConverzAI 通过 AI 筛选和自动匹配,将招聘时间缩短 90%。
- 提升招聘效率 :平台能够自动执行初步沟通、跟进、筛选等任务,使招聘人员将精力集中于高价值决策。
- 降低招聘偏见 :利用数据驱动的分析减少主观因素,提高招聘公平性,确保候选人基于技能和经验而非其他因素被筛选。
- 规模化运营能力 :ConverzAI 的 AI 系统已处理超 10 万个职位,并成功触达数百万名候选人。(@中鲸社)
2、DPVR AI GLASSES:将通过百度智能云千帆大模型平台接入 DeepSeek
(图片来源:大朋 VR)
2 月 11 日,大朋 VR 发布文章称,其即将发布的 AI 眼镜 DPVR AI Glasses 通过百度智能云千帆大模型平台调用 DeepSeek-R1/V3 系列模型。
据悉,DPVR AI Glasses 通过百度智能云千帆大模型平台调用 DeepSeek-R1/V3 系列模型,依托 DeepSeek 大模型的端侧实时处理能力,实现图像、语音等多模态数据的毫秒级响应,显著提升交互效率。
同时,设备搭载高精度语音交互系统,可通过语义理解与多轮对话管理,用户仅需自然语言指令即可完成复杂操作(如「查找上周拍的食物照片并翻译包装文字」),真正实现「动口不动手」的穿戴式智能体验,重新定义人机协作的便捷性与人性化边界。
DPVR AI Glasses 以百度智能云千帆大模型平台调用的 DeepSeek 为引擎,将前沿技术转化为「润物无声」的生活助力。它将不仅是工具,更是懂需求的伙伴——看得见细节、听得懂潜台词、给得出解决方案。(@大朋 VR)
03 有态度的观点
1、AI 大牛卡帕西盛赞 DeepSeek!对着论文夸了半小时,称其思维能力「难以置信」
近日,OpenAI 联合创始人、前特斯拉 AI 总监、知名计算机科学家李飞飞的爱徒安德烈·卡帕西(Andrej Karpathy)在 YouTube 上发布一则 3.5 小时的超长免费课程,向普通观众做了一次全面的大模型科普。其中,他花费近半个小时时间,以最近爆火的 DeepSeek-R1 为例,详解了背后强化学习技术路径的巨大潜力。
卡帕西认为,在大模型训练体系中,预训练、监督微调和强化学习是其中的三个主要阶段,而「强化学习是一切调整到位的环节」。虽然强化学习的本质并不复杂,即「试错学习」,但在如何选择出最佳的解决方案、提示词分布等问题上还有许多细节尚未明晰,仅停留于各大 AI 实验室内部,缺乏统一标准, 解决这些问题并不容易 。因此,DeepSeek-R1 研究论文的主要贡献便是:「它首次公开讨论了强化学习在大语言模型的应用,并分享了这项技术是如何让模型涌现出推理能力」。
R1 在强化学习过程中涌现出的思维能力,被卡帕西称为 「最令人难以置信的成效」 。未来,如果我们继续在大模型领域对强化学习路径进行 Scaling,就有望让大模型也能解锁像 AlphaGo「第 37 步棋」那样的「神之一手」,创造出人类从未设想过的思考方式,比如用一门全新的语言进行思考。(@智东西)
2、Sam Altman 再谈 DeepSeek:每天都有压力
近日,OpenAI CEO Sam Altman 在《泰晤士报》的节目中再次谈及 DeepSeek,并表示为了不让 OpenAI 被打败,每天都为此担心。对于 DeepSeek,Altman 称其预料到会有能力出众的模型出现,只是不确定具体时间,所以对于 DeepSeek 的出现,他并不感到意外。Altman 认为从研究的角度来看,DeepSeek 并不算是重大的突破,但 Altman 肯定了 DeepSeek 的工作,例如免费且大规模开源。虽然 OpenAI 开创了一个新技术引领的时代,但将来有可能会被后来者居上,当主持人问及 Altman「是否担心 OpenAI 会成为 AI 界的 Napster(首个 P2P 音乐共享平台,后因商业压力以失败告终)」时,Altman 直言不讳地表示会担心,并认为通过这种担心,来转化成每天的动力,以避免上述的情况发生。Altman 在对话中提到,他个人十分支持 AI 平权化,同时他表示,平权化固然也会带来一些权衡,届时社会也会出现一些不好的现象。
因此 Altman 也表示,无论中方还是美方,在 AI 规则制定上都会有达成一致的部分。Altman 还透露,他很快会与 DeepSeek 的领导层进行会面,但未透露更多具体信息。此外,Sam Altman 近日被记者问及「有多担心中国中国」时,其表示 OpenAI 十分想和中国市场合作,尽管受限美国当局的限制,OpenAI 也会尽最大的努力与中国市场沟通,并且 Altman 表示,中国市场十分重要。(@ APPSO)
更多 Voice Agent 学习笔记:
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。