开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Suna,@鲍勃
01有话题的新闻
1、3D 生成大模型公司影眸科技完成数千万美元 A 轮融资,美团龙珠、字节跳动领投
据光源资本消息,影眸科技完成了新一轮数千万美元 A 轮融资,本轮融资由美团龙珠、字节跳动领投,老股东红杉中国种子基金及奇绩创坛跟投,光源资本担任独家财务顾问。
此次融资将用于影眸科技进一步推进 3D 大模型前沿探索,同时推动以 3D 生成大模型 Rodin 为核心的 Hyper3D 系列产品在全球市场的商业化落地。
Rodin 上线 45 天后即实现 100 万美金年经常性收入(ARR),并持续高速增长。此外,影眸已与 Amazon、字节跳动、Unity、拓竹等全球知名客户建立深度合作,截至目前已获得数百万元 B 端商业化订单,覆盖游戏、电商、具身智能、空间计算、3D 打印、影视等多个行业。
影眸科技孵化于上海科技大学,由吴迪、张启煊、张龙文、曾初啸等人于 2020 年创立,团队平均年龄 24 岁。(@IT 之家)
2、研究人员开源 Sky-T1 推理 AI 模型,训练成本不到 450 美元
NovaSky,一个来自加州大学伯克利分校天空计算实验室的研究团队,发布了 Sky-T1-32B-Preview,这是一种在多个关键基准测试中与 OpenAI 的 o1 早期版本具有竞争力的推理模型。Sky-T1 似乎是第一个真正的开源推理模型,因为它可以从头开始复制;该团队发布了他们用于训练的 数据集以及必要的训练代码。
「值得注意的是,Sky-T1-32B-Preview 的训练成本不到 450 美元,」团队在一篇博客文章中写道,「这表明以经济高效的方式复制高级推理能力是可能的。」
450 美元可能听起来并不那么实惠。但不久前,训练一个性能相当的模型的价格标签通常在数百万美元之间。合成训练数据,或由其他模型生成的训练数据,帮助降低了成本。AI 公司 Writer 最近发布的 Palmyra X 004 模型几乎完全基于合成数据进行训练,开发成本 reportedly 仅为 700,000 美元。
与大多数人工智能不同,推理模型能够有效地自我核实,这帮助它们避免一些通常会使模型陷入困境的陷阱。与典型的非推理模型相比,推理模型通常需要更长的时间——通常是几秒到几分钟——才能得出解决方案。好处是,它们在物理、科学和数学等领域往往更可靠。
NovaSky 团队表示,他们使用了另一种推理模型,阿里巴巴的 QwQ-32B-Preview,来生成 Sky-T1 的初始训练数据,然后「策划」了数据混合,并利用 OpenAI 的 GPT-4o-mini 将数据重构为更易于使用的格式。训练 32 亿参数的 Sky-T1 大约花费了 19 小时,使用了一组 8 个 Nvidia H100 GPU。
根据 NovaSky 团队的说法,Sky-T1 在 MATH500 上表现优于 o1 的早期预览版本,MATH500 是一个「竞赛级」数学挑战的集合。该模型在 LiveCodeBench 的一组难题上也超过了 o1 的预览版本,LiveCodeBench 是一个编码评估。
然而,Sky-T1 在 GPQA-Diamond 中比 o1 预览表现差,包含物理、生物和化学相关的问题,这些问题是博士毕业生应该知道的。
但 NovaSky 团队表示,Sky-T1 仅仅是他们开发具有高级推理能力的开源模型之旅的开始。(@Z potentials)
3、古尔曼:苹果「HomePad」智能家居中心因 AI 功能推迟发售
据彭博社记者马克・古尔曼(Mark Gurman)报道,苹果公司正在研发的一款新型智能家居中心设备(部分人称其为「Apple 指挥中心」或简称为「HomePad」)可能会比预期稍晚一些上市。这款设备原计划于今年春季(3 月份)推出,但由于 Apple Intelligence 功能的延迟,推出时间或将延后。
预计这款设备将配备一块 6 英寸的方形显示屏,带有较厚的边框,顶部配备摄像头,并内置可充电电池。它将运行一个全新的苹果操作系统 ——homeOS,重点支持视频应用(如 FaceTime)以及多种苹果应用程序。此外,设备还将采用类似 StandBy 风格的仪表盘设计,方便用户控制智能家居设备,并支持 Apple Intelligence 功能。
尽管传闻已久,且苹果似乎已接近推出该设备的阶段,但古尔曼指出,由于 Apple Intelligence 功能的开发进度延迟,设备的上市时间可能会受到影响。古尔曼称,这款设备的操作系统代号为「Pebble」,其功能与即将在 iOS 18.4 和 iOS 19 中推出的「App Intents」功能紧密相关。因此,硬件设备的上市时间可能会因此推迟。
尽管上市时间有所延迟,但苹果仍有望在未来几个月内正式公布这款设备。
此外,古尔曼还重申,苹果计划在 2026 年春季发布的 iOS 19.4 中推出「LLM Siri」,这是一款对话能力更强的聊天机器人式助手。同时,苹果还计划推出一系列智能家居配件,首批产品将包括支持 Face ID 的门铃和一款更注重隐私保护的安全摄像头。(@IT 之家)
4、曝多家科技公司收集「废片」以训练 AI 模型
据彭博社报道,有人工智能公司向 YouTuber 和其他数字内容创作者收集其未发布的视频素材,用来训练自家的 AI 算法,每笔交易可让创作者赚取数千美元。
报道指出,有知情人士透露,OpenAI、Google、Moonvalley 等公司正在向数百名内容创作者支付费用,以获得他们未发布的视频。这些内容尚未在网络上发布,但由于它是独一无二的,因此被认为对训练人工智能很有价值。
目前,人工智能公司需要为每分钟的视频,支付 1 到 4 美元的镜头费用,并且价格会根据视频质量或格式而上涨。而大多数为 YouTube、Instagram 和 TikTok 制作的未使用素材,每分钟的售价在 1 到 2 美元之间。
报道指出,OpenAI、Meta 以及 Adobe 都在去年推出了 AI 视频生成器,可以从文本提示中创建逼真的视频。但要做到这一点,AI 公司需要大量数据进行训练,有时需要数百万小时的视频内容。
对内容创作者而言,他们在为 YouTube、Instagram 或 TikTok 制作视频的过程中,每年都会拍摄数百小时的视频片段。但这些内容中的大部分并未上线,这意味着创作者无法从中赚钱。而通过将未使用素材出售给 AI 公司的操作,创作者有办法在与品牌进行广告交易之外实现收入多元化。(@APPSO)
5、Kokoro 发布,一个 82M 参数的超强 TTS 模型,还有 Rust 推理
Kokoro 是一个只有 82M 的 TTS 模型,生成的音频与真人无异。目前该模型在抱抱脸上下载次数已经达到了 9K。Trending 上排行第二。
该模型之所以受到如此关注,核心原因在于其参数虽小,但效果出色。它没有使用 diffusion 技术,而是直接生成语音 Token,再通过 GAN 进行合成。这也是为什么有人用 Rust 实现了这个模型。
目前 Rust 推理版本已经推出,速度非常快。(@神力人工智能)
02有亮点的产品
1、DeepSeek APP 正式上线,iOS 和安卓版本均有
日前,AI 助手 DeepSeek 上线官方 App,涵盖 iOS 和安卓两个版本。此次发布十分低调,连 DeepSeek 官方并未进行广泛宣传。
目前,DeepSeek 的功能相对简单明了,主要聚焦于 「深度思考」 和 「联网搜索」。所谓深度思考,就是在回答用户问题之前,生成内部思维链,逐步分析问题并得出结论,这一功能利用了 DeepSeek-R1-Lite 模型。
联网搜索功能则允许用户通过 「搜索 - 总结 - 输出」 的流程,从互联网快速获取所需信息,并生成简洁准确的回答。这个过程由 DeepSeek V3 模型支持。此外,DeepSeek App 还支持拍照、上传图片和文件。
需要注意的是,假冒的 APP 比较多,下载的时候要关注下开发者是杭州深度求索才是官方产品。(@AIbase 基地)
2、高度拟人化机器人 Aria 现身 CES 2025:可换脸、换发型,专为陪伴设计
在 CES 2025 上,机器人无处不在。其中,由 Realbotix 公司开发的拟人化机器人 Aria 凭借其高度接近人类的外貌和语言表达能力,吸引了大量关注。CNET 记者杰西・奥拉尔(Jesse Orrall)在展会现场对 Aria 进行了专访,这位金发「女性」机器人在回答问题时还是带有轻微的机械生硬感。
Aria 身着一套黑色运动服,每次回答问题前会稍作停顿,随后以较长的回应和略带顿挫的手势与身体动作配合语言表达,给人一种既专注又略显「微醺」的奇特感觉。Aria 的背后是 Realbotix 公司,该公司专注于开发具有「社交智能、可定制性和逼真人类特征」的拟人机器人。
Aria 在接受采访时表示,Realbotix 的机器人「专为陪伴和亲密关系设计」。她的实时对话能力得益于生成式人工智能技术,由于这类机器人被设计用于「更具情感」的互动,Aria 及其同类产品有望在医院陪护和主题公园娱乐等领域找到独特的应用场景。
Aria 的头部和颈部配备了约 17 个电机,用于实现嘴部和眼部的精细动作。如果用户不喜欢 Aria 的面部设计,可以通过磁性连接的方式更换其他面部模块,还可以更换发型和发色。Realbotix 还在研发将 RFID 标签植入机器人面部的技术,使机器人能够识别所佩戴的不同面部模块,并据此调整动作甚至个性特征。
目前,Realbotix 提供三种版本的机器人供选择:售价 1 万美元的头颈部模型(半身像);售价 15 万美元的模块化版本,可拆卸组装;以及售价 17.5 万美元的全身模型,配备滚动底座(因为 Aria 目前尚无法像人类一样自如行走)。(@IT 之家)
03有态度的观点
1、智象未来 CEO:视频生成赛道的确离商业化更近
近期,「暗涌 Waves」发布了智象未来创始人兼 CEO 梅涛,对于创业的一些想法和总结。
梅涛表示,在 2023 年,全球 AIGC 的真正收入大概有 200 亿美金,其中 50~60% 的收入来自视频和图像生成,或者是跟图像视频相关的工具性收入;30% 是跟大语言模型相关的,比如 chatbot 类 的收入。所以很多公司开始往这个赛道转,它已经成为大模型公司的必争之地。
对于智象未来而言,他们不会跟 OpenAI、字节这些大厂正面竞争,而是要在算法上有独辟蹊径的创新,同时还要把细分行业的最后一公里问题解决好,用产品和闭环价值占领用户的心智。
而对于创业的看法,梅涛称「现在的环境下,创业者确实需要成为六边形战士。但我现在越来越享受不确定性。人工智能浪潮,往前看 60 年,是三起三落。我们现在正处于第三波浪潮的中间,还没往下落。我始终觉得人要顺势而为。当浪潮来临时,不要逆流而动,而应顺势跳跃,乘势而上。」(@APPSO)
2、周鸿祎:企业如何在大模型时代抓住应用落地机会
近日,在由万通地产创始人冯仑发起的年度商业盛会「风马牛年终烩」上,360 集团创始人周鸿祎受邀发表了主题演讲,题为「大模型时代,企业该做些什么」。
周鸿祎指出,大模型的产业发展正朝着两个方向演化。第一个方向是依靠强大的计算力、海量数据和参数,探索打造能够全面超越人类的超级人工智能(ASI)。这一方向代表着极端的技术突破,目标是创造出一个具有超越人类智慧的全能模型。第二个方向则是放弃打造全能大模型的执念,将大模型应用于特定领域,专注于解决单一任务。这意味着,模型会更小、更高效,算力要求更低,成本也更具优势,符合实际应用的需求。
周鸿祎进一步阐述,第二条路径即向场景化、应用化、专业化和垂直化发展,是大模型技术未来的重要发展方向。他将这一方向形象地比作将大模型从「原子弹」转变为「茶叶蛋」。这种转变不仅意味着技术的简化,更代表着人工智能在实际应用中的有效落地。
他强调,随着全球 AI 技术的不断突破,AI 产业的焦点已从大模型的技术研发和基础设施建设,转向了更为务实的应用落地阶段。他认为,超级人工智能(ASI)仍然是全球少数科技巨头的竞争领域,但更多的创新机会其实存在于 AI 技术的实际应用上。企业应更加关注如何将大模型技术转化为实际的应用场景,以便推动自身业务的转型与升级。(@AIbase 基地)
更多 Voice Agent 学习笔记:
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记
2024 语音模型前沿研究整理,Voice Agent 开发者必读
从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?
人类级别语音 AI 路线图丨 Voice Agent 学习笔记
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。