头图

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、Hume 演示结合 Claude Computer Use 语音控制计算机

EVI 是一款能够仅用语音控制计算机的创新产品。基于 Replit 的模板,结合 Hume 的 EVI(情感语音界面)和 Claude 的 Computer Use API,EVI 可以实时处理语音指令,执行计算机控制操作,并通过语音解释其行为,甚至可以在执行过程中被打断以调整任务。

Hume 的前沿语音模型 EVI 2 不仅能生成自己的语言,还能像演员读剧本一样朗读其他语言模型的内容。EVI 是唯一一个既能与任何大语言模型互操作,又可以作为 API 使用的语音对语音模型。

开源代码:https://replit.com/@jerhadf/Hume-Anthropic-Computer-Use(hume_ai@X)

2、5600 万种子轮估值 5 亿,AI Agents 的操作系统来啦!昨日,一个操作系统领域的航空母舰团队融了一个特别大的种子轮 5600 万美元。

昨日,一个操作系统领域的航空母舰团队融了一个特别大的种子轮 5600 万美元。

该团队几乎全是操作系统的超级人才,曾开发过最近三代的操作系统,包括如安卓系统、可穿戴设备以及 AR/VR。

该团队想要打造一个 AI Agents 的操作系统。逻辑如下:

目前,包括微软、Anthropic 和 OpenAI 等越来越多的美国科技公司都在构建 AI Agents,这些 Agents 可以执行如预订航班或是以极少的人工输入来编写代码等任务,目标是让人们与 AI 的互动就像是与真正的同事或助手互动一样。

但是这其中还缺少了一个关键部分,那就是:如果有朝一日,Agents 能像应用程序一样无处不在,那么开发人员就需要一个通用的技术框架来连接这些服务,并允许它们之间相互通信——类似于苹果的 iOS 或谷歌的安卓。

因为目前看,Agents 的前景已经明朗,但作为开发人员,构建任何好的东西都太难了。换句话说,我们需要一个像安卓一样的 AI 时刻。为了解决该问题,该团队计划构建一个可以在手机、笔记本电脑,甚至是汽车上运行的基于云的操作系统。他们还希望创建一个新的用户界面,让人们能够更自然地与各种硬件设备上的 Agents 交互。

该公司的名字也很酷:/dev/agents,其四位联合创始人的背景分别如下:

  • CEO 戴维。辛格尔顿:他曾任美国金融科技公司 Stripe 的 CTO。更早之前,他曾担谷歌安卓产品的工程副总裁。
  • CTO Ficus Kirkpatrick 曾任安卓早期工程师和 Meta 的增强现实和虚拟现实副总裁。
  • 首席产品官 Hugo Barra曾任谷歌安卓产品管理副总裁和 Meta 的 Oculus 副总裁。
  • 首席设计官尼古拉斯。格特克夫曾任谷歌 Chrome OS 的首席设计师和 Dropbox 的高管。

此外,/dev/agents 还另有两名员工。公司计划保持灵活运营,类似安卓早期的运营方式。

目前,该公司确定计划投资的一个主要领域是计算推理,这是构建运行 Agents 的操作系统所必需的。

这一轮大型种子轮由 Index Ventures、谷歌成长型投资基金 CapitalG 联合领投。此外,数十位天使也参与了,包括:Scale AI 的首席执行官 Alexandr Wang 、Palo Alto Networks 的首席执行官 Nikesh Arora 和 OpenAI 的联合创始人 Andrej Karpathy 等。

需要特别强调一下的是:5600 万美元的种子轮融资,对 /dev/agents 的估值是 5 亿美元。(@硅发布)‍

3、阿里发布 QwQ-32B-Preview:挑战 OpenAI 推理模型,具备自我事实核查能力

阿里巴巴 Qwen 团队近日发布 QwQ-32B-Preview 推理人工智能模型,为人工智能领域带来重大突破。这款拥有 325 亿参数的模型不仅能处理 32,000 个单词的长文本提示,还在多项基准测试中超越了 OpenAI 的 o1 系列。

在 AIME 和 MATH 等关键测试中,QwQ-32B-Preview 展现出卓越的推理能力,尤其是在解决复杂逻辑和数学问题方面表现突出。该模型通过独特的自我事实核查机制,有效避免了传统 AI 模型常见的推理陷阱。

与其他 AI 模型不同,QwQ-32B-Preview 采用提前规划和执行策略来寻找问题解决方案。目前,该模型已在 Hugging Face 平台上发布,并采用 Apache2.0 许可证,意味着开发者可以自由用于商业应用。

尽管模型性能令人瞩目,阿里巴巴也坦诚地指出其存在一些局限性,如可能意外切换语言、陷入推理循环,以及在常识推理方面的不足。(@AIbase 基地)

4、昆仑万维「天工大模型 4.0」o1 版启动邀测,具备中文逻辑推理能力

昆仑万维集团于昨日(11 月 27 日)宣布,正式推出具有复杂思考推理能力的系列模型 ——「天工大模型 4.0」o1 版(Skywork o1)。

据介绍,Skywork o1 是由昆仑万维集团发布的具有「慢思考推理能力」的系列模型,是国内第一款具备中文逻辑推理能力的 o1 模型。不同于现有的复现 OpenAI o1 模型的工作,Skywork o1 不仅在模型输出上内生了思考、计划、反思等能力,在标准评测集上对比普通模型推理能力大幅上升,让模型拥有了思考和反思带来的推理能力的提升。

此次发布的三款模型如下:Skywork o1 Open:一款基于 Llama 3.1 8B 的开源模型,该模型在同生态位开源模型中评测指标大幅提升达到 SOTA 水平,并解锁了许多轻量级模型无法解决的复杂数学任务。Skywork o1 Lite:该模型具备完整的思考能力,具有更好的中文支持和更快的推理和思考速度。在数学、中文逻辑和推理类问题上表现突出。Skywork o1 Preview:这款模型是本次完整版的推理模型,搭配自研的线上推理算法,对比 Skywork o1 Lite 有着更多样和「深度」的思考过程,更完善和更高质量的推理。(@IT 之家)

5、OpenAI 获得软银 15 亿美元新投资

据「CNBC」报道,OpenAI 获得软银 15 亿美元的新投资,并允许员工在公开招标中出售股份。

根据内部消息透露,此项计划预计将在本周内正式完成,而在此之前,这一消息并未被外界所知。同时报道还指出,此次投资由软银集团创始人孙正义强力推动,在向 OpenAI 上一轮融资投入了 5 亿美元后,孙正义一直坚持要求获得更多的股份。
同时有人员透露,这项收购要约与 OpenAI 的未来战略规划(即 OpenAI 将重组为营利性企业的潜在计划)并无直接关联,而是孙正义对 OpenAI 技术实力和未来发展潜力的认可与信任。

报道中还指出,在今年 6 月之前,OpenAI 对要约收购采取了较为严格的限制,规定中公司来决定谁可以参与股票销售。但在今年夏天,OpenAI 改变了二级股票交易政策,允许现任和前任员工平等参与年度收购要约。(@APPSO)

02 有亮点的产品

1、ElevenLabs 推新功能 GenFM,AI 生成多声道播客

人工智能初创公司 ElevenLabs 于周三推出了一项新功能,名为 GenFM,该功能允许用户上传不同类型的内容以生成多声道播客,类似于谷歌的 NotebookLM。

这项功能已在 ElevenLabs Reader 的 iOS 应用中上线,支持 32 种语言,包括英语、印地语、葡萄牙语、中文、西班牙语、法语、德语和日语等。

使用 GenFM 时,用户可以首先上传 YouTube 视频、文本或文档,应用程序会自动选择两个声音来创建播客。

ElevenLabs 提供了十多种声音供用户选择。应用程序在准备 AI 生成的播客时,用户可能会看到一些有趣的提示,比如 「添加一些停顿」 和 「插入一些填充词」。在当前许多工具帮助人们去除 「嗯」 和 「啊」 的背景下,ElevenLabs 却选择为其 AI 生成的播客添加一些人性化的元素。

ElevenLabs 的移动增长负责人 Jack McDermott 在接受 采访时表示:「我们讨论了在多大程度上引入『嗯』、『啊』、『嗯哼』、笑声和呼吸等类似人类对话的填充词或覆盖声音。我们的目标是在自然人类对话和内容实用性之间找到适当的平衡。」

他还指出,优秀的长格式播客中往往干扰较少,更自然、更深入的对话流是他们追求的体验,旨在使音频叙事在不同声音和语言中更易于访问。
未来,ElevenLabs 计划支持更多的自定义选项,并允许用户添加多个来源来创建生成式 AI 播客。(@AIbase 基地)

2、Perplexity 计划推出低价语音问答硬件

近期,Perplexity AI CEO Aravind Srinivas 在 X 平台发文,表示他们将研发一款价格低于 50 美元的简单硬件设备。

Aravind Srinivas 表示,这款硬件设备可以通过语音交互来「可靠地」回答用户的问题,并且该设备将专注于语音问答这一核心功能。

在推文中他表示,如果该帖子获得 5000 以上的点赞,这一设想将进入实现阶段,目前该帖子已获得超过 8000 点赞。(@APPSO)

03 有态度的观点

1、a16z 前合伙人重磅演讲:企业 FOMO 情绪严重,未来 AI 模型将以周为速度迭代

在 Slush 2024 大会上,顶级风投 a16z 前合伙人、美国知名独立分析师 Benedict Evans 发表了题为《AI 吃掉世界(AI Eats the World)》的年度观察演讲,谈到生成式 AI 正在从当前的「炒作周期」迈向实质性发展,真正的生产力高峰预计将在几年后显现。

Evans 说,虽然生成式 AI 的估值急剧攀升,但当前行业仍处于高期待和高估值的阶段,技术的广泛应用与实际价值尚需时间。他谈道,生成式 AI 将经历四个阶段:从最初的惊奇到智能功能,再到自动化,最终成为像普通软件一样普及的基础性技术,融入日常生活。

此外,AI 行业的资本支出正在从单纯的软件开发转向基础设施建设,以支撑 AI 产品的扩展和长期运营。这一转变反映了企业日益加剧的 FOMO(错失恐惧症)情绪,许多公司急于跟进 AI 浪潮,投入巨资以避免被淘汰。

Evans 还谈道,AI 模型的快速迭代和成本下降将是推动市场发展的关键因素。OpenAI 通过技术优化将模型训练成本降低了 90%,Meta 和苹果通过开源和边缘计算等策略,加速 AI 技术的普及与多元化应用。他预测,未来 AI 模型将每几周迭代一次,推动行业持续推出更高效的模型。

随着生成式 AI 逐步从创新工具转变为企业发展的基础性技术,它正在推动效率提升和业务转型。虽然是否能完全取代传统工作流程仍有不确定性,但 AI 在业务中的核心地位已日益形成,成为行业发展的驱动力。(@智东西)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


RTE开发者社区
658 声望967 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。