隔空手势交互，在现实世界上演“得心应手”

【得心应手：心里怎么想，手就能怎么做】

手，作为人体最灵活的器官，参与我们生活的方方面面；手，是除了眼睛之外能直接感受三维世界和物体的器官；手，作为无声的交互工具，已经在计算机领域占了无比重要的地位。

在人机交互界面，手的交互是至关重要的，于是我们开始有了越来越多的“触控交互”，但随着技术的发展，为了身体解放，越来越多的设备引入了“手势交互”技术。

“手势交互”在于，人们在各种电子设备的使用时，可以不再局限于通过接触屏幕、鼠标、键盘等进行操作，而是完全摆脱操作介质。

阿里云视频云的“隔空手势”，便是一项“未来式”交互方式技术。

上班不用鼠标，上演“隔空”操作

https://www.youku.com/video/X...
一则程序员的“隔空手势”视频，可以体感一场办公场景下的隔空交互操作，这是阿里云视频云基于手势识别技术研发的“智能手势交互引擎”。

可以看到，短视频中的程序员，无论是浏览页面、登录系统、还是精细的完成视频剪辑，都不再是通过鼠标、键盘按部就班的操作，而是以各种静态和动态的手势，顺滑、实时、精准的实现隔空控制与操作，而这种精细的操控程度，在隔空手势交互技术上，是突破现有瓶颈的。

对比“触控交互”需要用户和设备进行接触操控，“语音交互”需要进行听、说以及高精度识别的过程，而“手势交互”具备人类使用习惯的天然优势，成为“触控交互”及“语音交互”的不便利场景下的另一优解。

说到隔空手势交互，其基础便是“手势识别”技术。

从手势识别说起

在计算机科学中，手势识别是通过数学算法来识别人类手势的一个议题，即用户可以通过手势来控制或与设备交互，让计算机理解人类的行为。

手势识别的关键技术包含，手势分割、手势分析，以及静态和动态的手势识别。无论是静态还是动态的手势，其识别顺序首先需要对所获图像的手的检测和手势分割；再通过手势分析，获得手势的形状特征或者是运动轨迹；最后根据手势分析中的重要特征，完成静态或动态的手势识别。

手势识别的研究和发展影响着人机交互的自然性和灵活性。当前，业内大多数研究者将注意力集中在手势的最终识别方面，通常会将手势背景简化，在单一背景下利用算法对手势进行分割及分析。

但在现实应用中，人的手通常处于复杂的环境下，需要考虑如：光线过亮或过暗，手势距采集设备距离不同等复杂因素，从而做到精准的手势识别。

阿里云视频云的“智能手势交互引擎”，如何使“隔空手势”更具智能性和交互力？

高性能的智能手势交互引擎

由于复杂的手指手掌结构和在运动时的高度灵活性，手势关键点跟踪十分具有挑战性。阿里云视频云团队研发的智能手势交互引擎，通过对21个手部关键点的精准识别和跟踪，支持25种基础静态手势的识别。

基于这25种基础手势，结合手掌姿态的信息和场景，可以延伸出百余种手势。例如伸大拇指的手势，我们可以根据大拇指和大拇指的方向精准识别出：点赞（拇指向上）、差评（拇指向下）、向左（拇指向左）、向右（拇指向右）等等。

https://www.youku.com/video/X...
视频中，Left_Prob表示左手的置信度, Gesture_ID表示识别到的手势ID。

除了静态手势之外，类似上下左右滑动、左右翻页、缩小放大、拜拜等多种动态手势也能被精准识别和跟踪，从而实现上述视频中“隔空”实现视频剪辑的效果。

值得一提的是，阿里云视频云的“智能手势交互引擎”的算法不仅能保证“高精度”和“高稳定性”，更是做到了“超轻量” 。

“高精度”是指能够准确的识别各种各样的手部姿态及定位手部关键点的位置，即使在暗光、背光等挑战性场景也有很好的表现；

“高稳定性”，是通过算法的深度打磨，能够对手部关键点检测输出稳定的关键点位置, 做到手势交互操作的超低延迟。

“超轻量”体现在普通设备单线程运行中, 平均每帧耗时仅有6.5毫秒，处理性能可以达到150fps以上，模型大小仅为2.6MB，兼容所有主流平台，非常适合在普通的移动端手机的部署和应用。

一切因手势交互而卓然不同

新交互正在成为趋势，而解放身体的更自然的交互也是交互演进的方向，可以想象，能够为生活、工作、学习带来全新的形态与体验，而阿里云视频云的隔空手势交互作为“交互黑科技”，已经可以逐步运用到各类场景中。

在互动课堂场景，为了视力健康和丰富体验，学生可以全程与屏幕保持距离，通过隔空手势，学生可以完成课程选择、问题回答、翻页、举手等多样化的交互操作。

在疫情常态化和课堂线上化的今天，智能手势交互引擎助力行业用户重新定义了在线课堂的教学内容互动模式，使师生屏幕前的教学不再是单向的知识灌输，而是以在线课堂的互动性与感知度，高度丰满教育智趣。

https://www.youku.com/video/X...

在电商与娱乐直播场景，主播一边直播一边操控手机屏幕会造成的极大不便，然而，利用手势交互，主播可以通过手势特效与直播观众实时互动，还可以用手势来控制直播流程和画面；在用户端，可以结合用户的手势，如：点赞、比心等等，实时呈现相应的各种贴纸和特效，极大提升交互体验。

在数字展厅场景，数字化的视觉展示一直在不断创新，利用隔空手势，参观者可以不用操控屏幕，通过隔空手势对展品的旋转移动，可以360度全景了解展品，尤其在疫情时期也能减少密切接触带来的安全隐患。

在智能驾驶领域，将手势识别应用到驾驶辅助系统中，司机可以使用手势来控制车内的各种功能、参数，避免视线转移带来的驾驶安全隐患。

而在日常生活中，隔空手势识别更可以与智能硬件做深度结合，例如智能家电、智能机器人等，以隔空手势来才操控家电，便利性更加凸显，让人机交互更有体验感。当然，把隔空手势识别运用到生活的线下活动中，发挥想象力，还可以有更多有趣的互动体验。

针对“智能手势交互引擎”，阿里云视频云已经在2D手势识别进行了较为成熟的技术与应用沉淀，未来，也将继续探索先进的手势交互技术，尤其是针对3D手势交互，通过检测手在三维空间中的位置信息，我们可以更加准确的识别手部的动作, 从而实现更加复杂的交互，例如驱动一个3D的虚拟人, 或者实现手持虚拟物品等AR特效。通过3D手部姿态的识别，以带来更丰富、更沉浸、更智能在线交互体验。

庄子《天道》曾说: “不徐不疾，得之于手而应于心，口不能言，有数存焉于其间。”
即，“不慢不快，应于心而得之于手，虽不能言说，却有技巧奥妙存在于其间。”

手势交互技术一定是这样的奥妙存在，不论任何场域，让你得心应手。

「视频云技术」你最值得关注的音视频技术公众号，每周推送来自阿里云一线的实践技术文章，在这里与音视频领域一流工程师交流切磋。公众号后台回复【技术】可加入阿里云视频云产品技术交流群，和业内大咖一起探讨音视频技术，获取更多行业最新信息。

隔空手势交互，在现实世界上演“得心应手”

上班不用鼠标，上演“隔空”操作

从手势识别说起

高性能的智能手势交互引擎

一切因手势交互而卓然不同

CloudImagine

引用和评论

阿里云 ESA 游戏行业解决方案｜安全防护、加速、低延时的技术融合

微帧WZVQA：极致还原人眼感知，精准评估视频画质

书籍-《激光雷达遥感入门与应用》

计算机视觉（语义分割） | 皮带跑偏识别冠军方案解读