头图

HarmonyOS原生智能,生而智能能力探索

背景

今年六月份华为HDC开发者大会上有主题分享了华为HarmonyOS的原生智能能力,之前做过两点的端智能系统开发,最后也失败了,在“原生智能、生而智能”的分享中看到了几个应用的分享,本文探讨与OS深度结合后,AI能为开发者带来什么。

传统智能

2020年做智能语音交互系统的时候,从语音输入到语音输出整个交互的链路图下面这样:
image.png
当时搭建完这个系统并应用到Iot设备后,我特别想把它搬到手机侧,做经纪人的智能助手,比如可以搜房源,可以语音帮助经纪人回复消息。比如经纪人正在开车,突然来了商机,没法停车回复,又担心影响响应率,这时候如果通过语音唤醒智能助手,让语音助手帮助经纪人回复一条消息。这种APP侧的智能助手有个问题,应用必须存活,而且应用必须一直保持音频采集。如果OS侧有这个能力就会好很多。

image.png

确实在大模型之前,不管是siri,还是华为小艺,oppo小布都是这么一个流程,这个系统的能力除了语音的理解,最重要的就是资源调用API,可调用资源的数量(不管是云侧资源还是端侧资源)决定了智能助手的智能程度。

image.png
image.png
云端的通用能力大家都大同小异(音乐、天气等),端侧也类似,拨打电话,打开应用,调节音量,只能调用系统能力或系统应用的能力,三方应用能有打开这么一项,OS使用APP具体的能力大通道是没有被打通的。到了大模型时代,资源调用同样大模型能力的一大限制,所以才会有Agent,但是Agent也没法通过OS调用系统APP的能力。也不是APP开发者不愿意提供这种能力给OS用,而是不知道该提供什么接口你才可以调用到,这说到底是OS侧没有提供协议和标准,是生态的问题。

image.png

传统端侧智能的痛点:

  1. OS无法使用APP里面的能力
  2. APP中的模型有兼容性问题

HarmonyOS 原生智能、生来智能的解决方案

image.png
上面是截图的HarmonyOS原生智能分享的架构图,对于应用开发者主要有下面两大方向的能力:

  1. 意图框架:与OS深度结合的AI能力
  2. Ascend C能力:开发的NPU编程能力,让开发者自研模型有更好的表现。

意图框架

意图框架有以下三个方向:

  1. 控件AI化
  2. 全场景设备感知
  3. 打通小艺与APP屏障
控件AI化

image.png

分享中提到的AI控件:

  1. 朗读控件 (看点内资讯新闻播报、IM消息播报,相当于提供了一个TTS带UI的控件)
  2. 文档扫描控件 (合同等)
  3. 卡证识别控件(银行卡、身份证)
  4. 活体检测控件(身份认真)
  5. 图片-主体分割 (可以从一个图片中分割出不同的元素,我们可以用在证件照智能换背景等场景)
  6. 图片-文本识别&实体识别
  7. Input类-拍摄输入

    1. 指定识别类型
    2. 所有输入框默认支持(TextInput、RichEditor、Search、TextArea)
  8. 复杂表单一键填充
  9. 智能识别剪贴板(赋值内容后根绝内容弹出不同的菜单,比如赋值的是地址,可以弹出导航等)
  10. Input类-智能PhotoPicker(扫码、房源、装修效果)

    1. 传入图片类型,自动筛选相应的图片(证件、二维码)

image.png
image.png

打通小艺与APP屏障

下面是小艺的用户数据:

image.png

在未来新版本的HarmonOS,小艺的能力进行了如下的升级:

小艺常规能力升级
唤醒方式
  • 电源键唤醒:近场交互
  • 语音唤醒:远场交互
  • 【新增】长按导航条唤醒:GUI全局交互显性入口(可见、可动、可提示;提供更低的交互门槛)
小艺拖拽

拖拽文本、图片、文件发送给小艺,高效获取对话服务:如摘要,润色,提取表格,图片翻译等。

image.png

主动提醒

复制文本通过自动弹出菜单 一步直达服务
image.png

屏幕问答【全场景、输入更简单、内容更丰富)

可以自动识别屏幕的内容,相当于多了屏幕内容的输入,让我们的问题更明确。

小艺使能系统用机:问答+操控,设置“无死角”,便捷操控,小艺对话内一键操作,问答准确,大模型加持权威知识库。
  • 帮我关闭今日头条的定位和相机权限
  • 关闭微信外所有应用的通知权限
  • 手机有点卡,帮我检查一下
  • 字体调大点,再大点,调最大
跨应用的智能体:能思考,会规划,可执行,一次完成复杂连续任务

回复邮件:
答复:鸿蒙生态应用开发方案讨论纪要
把昨天汇报豺料里翔讲的技术理念和开发楔力金票圈那两贡单独发我一下,最好是PDF版的。

办公助手:构建高效会议体验

image.png

出行专家:伴随式服务,持续执行任务的服务模式

比如同城旅行,根据规划,分出行前出行后,出行中等场景进行个性化提醒。

小艺记忆:通过语音,识图识屏等方式记忆,打造智能记忆体

通过端侧记忆能力,打造属于每个人个性化的智能体。
image.png

小艺搜索 Al赋能,搜索新范式,共赢流量新机遇
语义搜图,更轻松,更智能
  • 自由描述,支持自然语言搜索图片、视频、movingPhoto(动态照片)
  • 精准查找,支持对画面中文字搜索及时间、地点、人物、语义多维度组合搜
    image.png
文档搜索,又快又准,拯救打工人
  • 更快,海量文档,即时搜索(时延≤300ms)
  • 更准,内容摘要,精准匹配(准确率 ≥95%)
  • 更轻松,口语化表达,简化搜索条
Al赋能,你的本机搜索更懂你
  • 更智慧,自然语言搜索,智能生成答案
  • 更个性,用户的专属AI搜索,立足本机内容问答
  • 更安全,隐私保护,本机原始数据不上
    image.png
最佳匹配

端侧Al赋能,让本机搜索更聪明,让HarmonyOS花园更繁荣
image.png
搜索m,对于爱点外卖的是美团,对于爱p图的女生是美图

热搜榜焕新

用户榜单自己做主,优质体验持续拉动转化
image.png

猜你想搜

基于用户搜索行为精准推送,精品内容海量曝光
热门:玫瑰的故事 刘亦菲
精品:每日一书:追风筝的人9.5大
个性化:父亲节:爸爸礼物送什么
端侧捐赠:那年今日循环在听

热搜视频

搜推结合,转化更高

视觉搜索

识万物,联合优质笔记攻略内容
image.png

联合伙伴,共建小艺搜索新场景

image.png

全场景设备感知

全场景怎么理解呢,结果我们对AI输入一句话或者一个意图,OS系统会帮助我们输入更多的内容,比如你的位置,你的网络,你打开的应用,现在看输入的局限性是制约我们使用AI的一个障碍,但是与OS深度集合后会解决这个问题产生无限可能。比如你到了医院了,小艺推荐会直接弹出你的电子医保卡片,到了银行弹出银行卡片,感知你的处境,更便捷的为你服务。
image.png

image.png

应用侧伙伴分享

下面是APP厂商在各个领域和HarmonyOS 深度结合后的探索:

  1. 新浪新闻

    1. 朗读控件
    2. AI智能识别图片文字
    3. 意图接入点击率预计提升6%
  2. 招商银行

    1. 卡证识别
    2. PhotoPicker
    3. 一句话唤起APP(“我想查建行余额”)
    4. 小艺搜索(转账)
    5. 小艺建议
  3. 去哪儿旅游

    1. 热搜榜
    2. 适时适需出现
    3. 全流程语音交互订票
    4. 智能填充
    5. 活体检测
    6. 展望

      1. 行前:AI行程设计
      2. 行中:推荐酒店,推荐值机选座
      3. 行后:使用小艺语音生成游记
  4. 喜马拉雅

    1. 接入意图框架,小艺多入口分发:精准理解用户意图实现智慧分发

      • 小艺对话:搜播有声技能调用
      • 小艺搜索:基于本地共享内容搜索
      • 小艺识物-小艺问答-一键收听
      • 结合多模态入口进行创新体验分发
      • 从新闻拖拽一个图片到小艺,小艺自动识别到 喜马拉雅 卡片
    2. 历史播放、有声内容推荐,提供快捷入口与听单体验
    3. 播放体验高级感:马上听、继续听、熟悉听、推荐听

      • 用户可从播控中心点击完成”马上听”,操作路径更短、更便捷
      • 按照用户使用习惯记录历史听单,实现”继续听”、”熟悉听”,一步恢复近期美好体验
      • 结合喜马内容捐赠和用户习惯,实现有声推荐功能”推荐听”,提升用户体验

端侧自定义计算编程 Ascend C 能力

Ascend C对APP开发者提供了NPU的编程能力,为APP侧自研模型的表现提供更多可能。

image.png
什么是算子呢?
在昇腾Ascend C编程语言的上下文中,算子(Operator)通常指的是在人工智能和机器学习领域中进行数学运算的基本单元。这些算子可以是简单的如矩阵乘法、加法、激活函数(例如ReLU、LeakyReLU等),也可以是更复杂的操作,如卷积、池化等。

在深度学习框架中,算子是构建神经网络的基本构件。每个算子执行特定的数学运算,并且可以接收一个或多个输入张量(Tensor),然后产生一个或多个输出张量。例如,在进行图像识别任务时,一个卷积算子可能会接收输入图像,并应用一系列滤波器来提取特征,生成特征图作为输出。

昇腾Ascend C编程语言允许开发者编写在昇腾AI处理器上运行的自定义算子,以实现对特定硬件的优化,提高计算性能和效率。开发者可以通过Ascend C提供的API来访问和利用昇腾AI处理器的并行计算能力,从而加速深度学习模型的训练和推理过程。

对于应用开发者,什么场景我们可以使用这些呢?比如我们可以尝试在端侧运行这个模型:风格迁移系统。下面网易云音乐的应用可以为我们提供思路。

网易云音乐分享

合作案例:端侧AI音质
网易云音乐业务挑战:

  • 降本增效,提高音频覆盖
  • 多型号平台支持,兼顾不同厂商芯片,支持高低端设备
  • 长时间推理,强实时性要求,功耗敏感
  • 适应端侧性能动态变化,确保稳定播放

HiAI Foundation解决方案:

  • NPU推理实现高性能
  • 实时性能监控保证播放体验
  • 端云协同覆盖全平台
  • 低成本音质更清晰优势

主要是帮助网易云音乐提升音质,回复一些有历史感的歌曲的效果,如果把音质提升放到云端,对加CDN的成本负担,在降本增效的背景下很难推广。基于OS提供的算子开发能力,完成了云侧模型到端侧模型的迁移。
image.png

收益:

  1. 效果基本一致
  2. 成本显著降低
  3. 减少卡顿,体验上升
    image.png

未来:全链路高品质音乐
高清空间音频体验,需要保证音频从制作开始、到分发、终端播放、末端回放等端到端全链路配合
image.png

场景挖掘总结

从华为的分享和应用厂商的分享,对于我们最大的启发就是我们有哪些能力可以开放给系统,开发出来可以给我们带来哪些收益。比如在垂直领域,做房产的比较少,我们是做房产领域的领头羊,那么我们完全可以做一个房产方向的榜单,我们提供内容,OS给我们流量。下面是整个分享下来可以探索的方向总结:

  1. 控件智能化

    1. 朗读
    2. 证照
    3. 二维码
    4. 活体
    5. PhotoPicker
  2. 对小艺开放能力

    1. 行情
    2. 语音唤醒APP回复消息
    3. 垂直方向视频内容
  3. 端侧模型场景(我们使用到的华为提供了相应能力)

    1. 人脸检测、活体检测模型
    2. OCR、卡证
    3. 3D场景

轻口味
16.9k 声望3.9k 粉丝

移动端十年老人,主要做IM、音视频、AI方向,目前在做鸿蒙化适配,欢迎这些方向的同学交流:wodekouwei