AI眼镜,究竟为什么这么热?

自2023年10月Meta旗下的Ray-Ban Meta智能眼镜发布,标志着智能眼镜终端不再只是极客的玩具,而是可能成为继智能手机之后,人类与数字世界交互的下一个核心入口

截至目前,国内已有十余家厂商正式发布了AI眼镜产品,还有更多的产品正等待亮相,“百镜大战”的序幕已经拉开

这场大战之中,参赛选手属性各不相同,既有互联网厂商,也有做显示出身……不同类型的选手都是以一种怎样的姿态加入的这场战斗?

为了解开这些疑问,量子位与不同属性的AI眼镜从业者进行了对话交谈。 今天的文章是这一系列交流中的第二期,我们对话了闪极科技创始人兼CEO张波先生

图片

在做AI眼镜之前,闪极科技以其电池和充电产品而闻名,因此也被外界看做AI眼镜的“跨界选手”。

当然,闪极内部对此有不同的看法,但可以肯定的是,做电池的经历给闪极在“百镜大战”中带来了独特优势。

闪极为什么要做AI眼镜?他们理想当中的AI眼镜又是怎样的一种形态?

来看这位“跨界选手”心目中的蓝图。

核心要点

  • AI眼镜要拥有“记忆”,能够主动成为用户的“个人助理”;
  • 目前图形界面的UI,不适合做成AI眼镜的显示;
  • AI眼镜的关键在于全天候使用,“大而全”不是终极目的;
  • 小米等大厂的入局,会让整个行业变得更加繁荣。

以下为量子位与张波对话实录,部分内容有删改。

让AI眼镜成为有记忆的“个人助理”

量子位:自从产品发布以来,闪极眼镜的AI功能有没有什么新的迭代?下一步的更新计划是什么样的?

张波:首先是接入了更多的模型,包括春节期间我们把DeepSeek也接进来了。

另外就是我们把我们的智能体的商店也做得更全面了,比如说我们有导游的Agent,可以通过拍照的方式帮你解读沿途的景物,包括背后的文化、历史。

而且我们云端的链路也优化得更流畅了,整个响应的全流程都做了软硬件一体的效率优化。

第三,在功能上我们想做一些主动的AI,比如说我们现在有一个模式是如果你打开它,那么每隔几分钟它就会拍一张照片,然后用AI去归纳、汇总、整理。

而且在拍照的同时,如果有人声出现的话,它就可以持续地录一段音,把有效的声音信息也记录下来,这种主动地去记录声音和画面信息,形成一个助理型AI的归纳整理。

这个是我们在去深入开发和优化的部分,就是让它成为一个真正过目不忘的助理

图片

量子位:闪极提出的这种AI记忆存储,成本还是比较高的,闪极会不会考虑采用订阅模式?用户的订阅习惯需要如何培育?

张波: 我们的基础功能——AI问答,包括多模态的问答,肯定还是不收费的,因为这个服务成本可以不断地去优化和降低。

但是像长期的记忆和专属归纳整理、检索,最终还是要走向收费的,否则成本会持续增加。

我们可以通过几个机制去来去平衡,第一就是前期是先免费,后期(收费期)用户可以通过打卡或者社交平台晒单分享的方式获得抵用券,或者累加免费的时长、容量

我们规划中的价格是299一年,但是实际大家通过打卡获得优惠之后,实际的价格大概在100元左右。

但是就算不付费,轻度的问答和有限容量的记忆都还是可以用的。 量子位: 刚才您也提到了闪极今年会接入更多的模型,当然对于用户来说多几种选择不是坏事,但是模型一多就可能会存在一个调度问题。另外有些厂家采用了定制化的模型,相对来说和系统、硬件的融合程度会更好。

所以,闪极目前设置的模型接入方式背后都有哪些考量?如何解决背后的一些潜在问题?

张波: 我认为,定制化模型主要的目的是让模型在更细分的方向上做得更好,但是现在用户数量还不够多,还没有看到特定的高频场景,能够支持我们去做定制模型

但是这并不代表闪极没有这样的能力,当前这个阶段我们会积累数据,以便为未来定向训练更适合个人助理的模型做准备。

我们现在已经在模型上有了布局,去年Tensorflow团队发布的一个新的强化记忆的模型,它可以让整个Transformer架构在不用重训练的情况下,就是具备一定的记忆能力。

这跟我们要做强记忆的模型是不谋而合的,所以在探索新的模型架构,而不是在现在Transformer的基础上去做,因为想让Transformer有记忆的话训练成本太高了,我们现在都是通过外挂降数据库的形式去实现。

但是最终,我们还是希望这些记忆能够直接融入到模型本身,当然还有很多工作要做,我们也正在努力。

图片

关于我们接入的不同模型,的确每个模型在我们的测试项中展示的特长不一样,比如说通义千问对于各种复杂的图片的多模态识别就会更精确一些;但是如果是在这种拟人的对话和情感的对话上面,可能豆包的模型就会更好一些;如果是像生物识别,比如说识别植物和动物的门纲目科属种,那可能就会用科大讯飞的植物识别模型。

所以在调用模型时我们会基于功能进行分配,另外也要看系统的响应,因为所有的模型都有抖动,我们会不断地地去测试这些模型服务器的响应的情况,调用响应更好、更及时的模型。

量子位: 您之前在其他的访谈中提到过,希望AI眼镜能够融入互联网平台,扩大“朋友圈”。所以闪极现在眼镜产品与第三方平台的生态合作上,有没有什么新的进展?

张波: 第一,我们肯定希个眼镜它有更多、更直接的用户行为习惯数据导入,所以我们和网易云音乐、 QQ音乐都谈了新的合作,希望可以直接拉取歌单,更好地判断用户在视听习惯上的喜好,这个会在下一个版本中可以更新出来。

第二个是在AI的存储归纳总结上,我们发现有些笔记类的应用,都有一些非常好的一些模板和接口,这个也是我们在打通和调用的。

第三,眼镜也好,还是其他硬件也好,最终还是需要把拍的东西传播和分享出去。所以我们和小红书、微博等社交媒体都在探讨“一键分享”,最终我们希望成为AI的APP store,所以这个软硬件的权限也是开放的,可以支持更多的开发者在我们的产品上面开发的原生AI应用。

并且沟通下来这些厂商的态度也是比较积极的,因为其实是增加用户活跃度和内容产出的一个新渠道,当然也面临着一些技术和法律问题,我们会持续沟通、推进。

AI眼镜和显示之间,还差一个新的用户界面

量子位: 闪极曾经表示过,在“AI重构UI”之前不会做显示部分。请问您对于这个“重构”的定义是什么样的?

张波: 现有的所有的UI交互都是基于图形化的显示界面,人和机器之间的沟通是通过操作界面去完成的。

但是AI交互基本上是纯对话,最多只要再加一些图片就OK了,交互过程就是一种对话流,所有的展示都是在一个网页或者在一个对话框里完成。

所以,等到用户最终觉得这种实时生成的对话内容,可以满足信息获取需求的时候,那我们就可以在眼镜上基于这种实时对话流的形式,去增加显示的功能。目前我觉得一个关键的点,是大家能不能针对这种AI的瀑布流的显示达成共识。

另外显示现在还面临一个问题,就是在眼镜上做超轻量的显示,它的功耗、体积都不是特别的能够满足全天候佩戴的需求,那我们肯定还是要做精简。

图片

量子位:您认为无显示或轻量化显示的AI眼镜,和带有AI功能的AR眼镜,这两种硬件形态的用户群体分别是什么样子的?

张波: AR眼镜的其中一种形态,就是作为显示设备的便携式替代,最大的目标群体还是游戏用户,大家把它当成游戏机等娱乐设备的副屏。这个肯定不是我们想做的,我们还是希望做一个具有独立算力和全部系统权限的、类似于小手机的一种眼镜硬件

还有一种是光波导,但是做光波导的厂商现在还没有特别大量的出货,可能两三千台就是现在单一品牌的极限,还没有形成规模效应,用户人群也很难收敛出来。大多数用户依然、把它当玩具,当一个新奇的体验在用,而没有能够贡献出生产力或者娱乐上的价值。

目前来看,闪极未来的演进方向,还是希望在记录和个人助理的层面上给大家贡献一点生产力的价值,我们希望眼镜能帮大家记录跟人沟通了什么、讲了什么、做了什么。

量子位: 如果让您来畅想一下我们 AI 眼镜产品的终极形态,您认为会是一个什么样子? 张波:我认为是让大家每天佩戴起来没有什么负担,但是在双手都被占据的时候又可以完成绝大多数的人机交互。不管是信息提示、AI问答,还是一些主动的处理型的内容,都有点像一个手表手环的存在,但是能比手表手环带来更强的人机交互和生产力的价值。

这就是它一个比较理想的状态,可能是在未来三到五年内实现的。

如果说更远的未来就是,那AI眼镜可能人类增强自己能力的最佳硬件,最终AI和人类肯定是要相互赋能的,那就必须有一个介质。

终极的介质可能是脑机接口,但是很多人可能不希望使用侵入式的脑机接口,那么随身佩戴的眼镜就成了增强人机交互的最佳硬件载体

不做“大而全”,关键在使用全天候

量子位: 所以您认为就是决定AI眼镜类成产品能不能成功的最关键的因素是什么?

张波: 我觉得最关键的因素还是让用户觉得它真的有用,能够在生活中默默地、主动地帮用户做一些事情

如果需要人类去指挥的话,手机这种交互形式肯定还是更加的符合大家的直觉,学习成本也更低的。

所以我们要做在手机上做不到的事情,它实时在看、在录,帮人做好归纳总结,这是我们在努力的方向。

量子位:您认为闪极的产品在这场“百镜大战”中最大的优势是什么?

张波:我们最大的优势,第一就是我们在充电技术上的积累,可以让我们这个眼镜的续航更长,这样它就可以更长的陪伴和记录。

第二就是我们在AI的记录存储和总结上面投入了很大的开发资源和精力,我们现在已经可以做到第一梯队,并且我们会持续地加强。

第三是我们有一批非常愿意尝新的用户,可以让我们更好地去快速完成验证。

量子位:刚才您也提到了电池的优势,确实闪极也是从做电池和充电设备跨界过来的,并且这个跨度还是比较大的,但所以选择做AI眼镜是基于什么样的考量?

张波: 我想澄清一点,这个跨度可能在外界看来确实很大,但在我们内部看并不算大

因为我们在做充电之前是做过手机和无人机,并且做无人机的合伙人他之前就在无人机的头部厂商做超轻量的显示设备,所以在这一块上面我们的技术能力和积累是足够的。 我们之所以做这个方向,是因为我们发现在AI时代到来之后,必须有一种新的交互硬件,才能充分地发挥AI的能力。

在各种穿戴设备,比如鼠标、轴环、挂饰、眼镜、耳机等这些当中随便选,那么眼镜无疑是陪伴人时间最长的,而且它的算力和电力都更充分,能够一直符合人的第一视角的感观,综合起来就是我们就最终决定要做AI眼镜的原因。

图片 量子位: 您之前曾经说过闪极要把AI眼镜的价格做到“雷军也做不到的水平”,那么闪极是如何实现成本控制的?

张波: 第一是更多地选用国产芯片,虽然做3纳米、4纳米的手机处理器可能还比较难,但是做一个手表、手环级别的处理器,国内的技术还是很成熟的,所以我们会跟国内优秀的芯片供应商做配合。

另外就是我们也重构了整个架构。之前的各种眼镜都是单芯片优化,主控芯片即使在不工作的时候功耗也很高,所以我们就通过协处理器,通过超低功耗的待机和唤醒,实现续航的增长。

当然成本降低还也有赖于整个供应链的支持,因为整个供应链都认可这的确是未来的方向,大家愿意几乎不挣钱甚至倒贴的陪我们一起玩,希望能够尽快地做出一个爆款的产品,让整个市场能够对更多的用户对这个产品感兴趣。

所以我们在努力做这个方向上的成本的优化,供应商也很配合,大家一起努力把成本做到最低。

量子位:您刚才提到了供应链,AI眼镜作为一个新的物种,在大众看来打通供应链并非非常容易的事,所以好像跟您刚才说的就是有一点出入?

张波: 一个产品的落地肯定是妥协的结果,没有人可以做到完美,哪怕是iPhone,第一代也有很多不完美的地方,所以关键是怎么实现预期和实际状况之间的平衡。

大家肯定都想做个完美的产品,但是技术和硬件达不到要求的时候,是很难实现的。具体到我们,的确在对于整个芯片方案的优化、摄像头声音的算法上还有提升空间。这是一个工程上的难题,而不是一个科学的难题,那就给出时间、给出目标、给出资金和人力,大家去努力完成就好了。

量子位:前两天就是小米也刚刚宣布了他们的AI眼镜,您怎么看待小米的入局呢?

张波:我觉得这是一个非常好的事情,因为雷总的带货能力还是超过很多人的,只会让这个行业越来越好。

量子位:您对于认为目前这个整个AI眼镜市场的发展最大的限制因素是什么?

张波:我认为是AI眼镜这种产品,大多数人都还没见过,甚至不知道有这个东西存在。

要想解决这个问题,单靠我们一家是很难扭转整个市场和消费者的认知的,所以这需要整个行业一起向前进步,然后让大家意识到这种新型产品形成整个产业链,可能也需要有大厂在这个方面去发声,让更庞大的人群能够了解这样的产品。

量子位:有的厂商,特别是AR厂商认为AI眼镜的最终形态,就是全彩显示、空间计算等等趋势融合全部都融进来,您觉得这个判断是对的吗? 张波:我认为一个设备如果能够获得用户的注意力,那所有的资金和资源就会向它集中。就像手机上面抖音越来越抢占大家用户的注意力,那它的规模就越来越庞大。

还是要强调,这个产品必须是能够全时段陪伴用户的,一旦做了“大而全”,在物理重量上用户就不一定能够接受,在各种场景下它的续航也不一定能扛得住。

所以我觉得这个产品就是如果做得“大而全”,它就无法符合全场景的使用需求,也就更难衍生出更强的商业化的价值。


量子位
48 声望20k 粉丝

一家专注于人工智能与前沿科技领域的产业服务平台。