Kfir Matza：以色列的动作识别技术世界领先

非商业转载请注明作译者、出处，并保留本文的原始链接：http://www.ituring.com.cn/article/127734

图片描述

Kfir Matza是Onysus公司的CTO，Onysus是一家专业于计算机视觉技术的初创公司，该公司已经入选GEM（全球创业周）2014年的总决赛。Kfir于上世纪90年代加入以色列国防部，时任精英科技部队的高级工程师，退役之后任职于ECI电信。他建立过两家成功的公司，并参与创建了很多公司，其中包括BCC，这是一家从事高风险支付的网络安全公司，他曾任研发总监。

问：微软在骨骼识别技术上投资巨大，而且他们也拥有海量的样本库。你如何收集到足够的样本数据来和像微软那样的大公司竞争？

微软为游戏开发者开发工具，而我们定位在一个非常不同的市场，我们提供不需要编程的解决方案。另外一个很大的不同在于Onysus需要的是3D摄像机，而不仅仅是微软的Kinect。今天的市场上提供了大量的不同种类的摄像机，这样巨大的分歧带来了很多的兼容性问题，每台摄像机都会提供不同的深度数据。而且这些摄像机的使用范围不一样，有一些很长，可以捕捉整个身体，有一些很短，只能够用做捕捉手势。我们把不同的输入变成统一的界面，并对不同设备提供统一的输出。

问：相对于大公司，你们的竞争优势在哪里？

相比于竞争，我们的关系更倾向于合作。我们的成功很大程度上要依赖于大公司把深度传感器成功地推向大众。大公司花费大量的资源把动作传感器整合到设备上，但是如果没有内容，所有这些硬件都毫无用处，就像一个没有app的智能电话。

而厂商们也明白这一点，这就是我们能和因特尔和三星建立战略合作伙伴关系的原因，我们期待更多的科技公司加入我们。因为他们对于让内容制造者“入伙”都有强烈的需求。

问：把单独摄像机作为输入设备曾几何时被看做是效率很低的方法，但是现在很多公司都在尝试基于软件的动作识别技术。你认为这会是未来的趋势吗？这种技术的未来发展过程中还有什么阻碍？

说得很对，市场上有很多公司提供了成功的单摄像机解决方案，比如XTR3d，Point grab，Eyesight等等。

这些解决方案很棒，它们可以给开发者们提供支持大多数设备的能力，而不需要加入额外的硬件设备或者考虑厂商的价格问题——不需要增加硬件设备，他们就可以用软件搞定问题。但是，这些网络摄像机的问题在于它们缺少能够捕捉细小动作的准确度，这些设备仅仅依赖于RGB数据，在没有照明的情况下数据就变得毫无意义。所以真正起决定作用的是交互方式，并不是所有的解决方案都符合开发者的需求。

我认为在未来会出现一个融合的解决方案，便宜的低端设备会依赖于软件，但是较贵的设备会加入3D摄像机。已经有越来越多的厂商把3D摄像机加入到设备上。比如和我们有战略合作关系的因特尔，已经宣布在2015年第一季度会和原始设备制造商（宏碁，华硕，戴尔，富士通，惠普，联想，NEC）一起实现携带深度摄像机的平板、笔记本电脑，以及多功能产品。

问：你们用来解释动作和面部表情的算法是什么？

因为我们支持的摄像机种类繁多，而且每种都提供了不同的输入数据，所以我们不得不为每个动作提供多种方式和算法。举个例子，竖大拇指这个动作可以用深度摄像机轻易地识别出来，利用的是深度数据来找到手的关节点，然后根据位置排放来判断手势。但是运用网络摄像机来寻找关节，对于CPU来说要求就很高，甚至对于竖大拇指这样的动作来说也很复杂。在这样的情况下，我们会同时使用多重算法来寻找熟悉的突状物体，肤色，集中特点，等等。

问：你以前的经历（在以色列国防部的工作）对你在动作识别科技的研究上有什么帮助？

我的大部分知识都是在军队里形成的。我在18岁的时候被招募到精英技术部队。在军队里你可以从经验中学习；当你有个任务不知道如何完成的时候，你需要快速学习，否则就会被遣散。很幸运地是，我的战友都是知识极丰富的人，而且不吝于分享他们的知识，这是一次很棒的经历。我无法告诉你具体的项目，因为这些是保密的信息，但是我可以告诉你的是，世界层次上计算机视觉领域中很多创新都是来自IDF（以色列国防部）。今天，计算机视觉和手势识别领域的很大一部分公司都是以色列的。正是以色列公司Primesense的先锋研究带来了微软的Kinect，随后技术又卖给了苹果。Kinect 2的技术基于飞行时间技术，而这项技术是从以色列开发者3DV System ZCam那里来的。Google项目Tango是由以色列公司Mantis Vision的MV4D技术支持的。Pebbles互动与小米和Scandisk都有战略合作伙伴关系。甚至因特尔的Real Sense大部分都是由以色列开发的，因为他们收购了两家以色列相关领域的公司，Omek互动和Invision生物统计公司。更不用说今天流行的2D解决方案几乎都是来自以色列的（XTR3d, Point grab, Eyesight）。

问：Onysus的团队成分很是混搭，你们的员工有着不同的国籍，技术以及专业。这是公司创立时的本意吗？这样的一家“混搭”公司有着什么样的优势？

我们强烈地相信异花授粉会带来好处，最最创新的解决方案通常都是来自混搭的专业和想法。不同背景的人思考方式不同，两个看似相反的意见相结合会带来更加广阔更加丰富的观点。有件事在我身上发生了不止一次，一个创意部的同事找到我，说出一个看似离谱的点子，就当我快把这个想法忘掉的时候，我忽然意识到这是个多么天才的解决方案。计算机视觉，正如这个名字所暗示的，这是一门非常视觉的技术，有视觉空间智慧的设计师与程序员截然相反，我们拥有的更多的是逻辑数学上的智慧，当你把两种算法相结合，创新就开始了。我们的使用者就是设计师，这件事让一切都更简单了，我们的目标是双赢。

问：你将在Top100全球软件案例研究峰会上分享的关于3D空间交互的主题很有趣，其中提到了长期使用动作识别带来的诸多问题，业界称其为“猩猩手”，那么你是如何设计基于手势的交互的？

确实“猩猩手”是基于动作的交互方式的大问题，因为长时间使用动作来交互对用户来说既痛苦又不舒服。并不是所有的应用都会从动作识别上获得好处，其结果可能是非常有害的，但是在某些领域基于动作的交互方式可以极大地提高体验。举个例子，如果当你满手油渍还想浏览烹饪书的时候，基于动作的交互可能是很理想的，但是当你想写下食谱的时候，真的没有必要从传统键盘上脱离开来，这种情况下，动作识别的经历对于使用者来说是非常痛苦的。根据经验法则，如果你感觉用原有的方法做起来更顺手那么你现在就是做错了。动作识别并不是为了要取代我们所知道的输入方式，而是要为开发者们一直在发展的工具箱中加入另外一个维度。

问：对于“无需触碰”的应用来说，需要使用什么样的设计方法？

如果要构建基于手势的应用，你需要考虑的第一件事就是你需要用什么样的摄像机。如果你想要构建需要全身识别的应用，就需要长距离深度摄像机，而手势识别需要短距深度摄像机，而面部识别可能只需要普通摄像机就可以了。另外一件需要注意的事就是不同人会用不同的方式来完成一个动作，甚至简单的打个招呼都可以有很多方式，电脑也会解读出不同的结果。

问：如何在不出现故障点的情况下测试故障点？

监测故障点对于基于动作的交互来说很具有挑战性，因为并没有现成的具体工具可以用来分析和测试这样的媒介。比如热图可以用来测试应用和网站的用户界面，因为这种方法可以显示用户活动并且根据鼠标或触碰位置来判断大众的兴趣。但是遇到基于动作的交互的时候，整个身体都是输入数据，所以热图技术就用不上了。对于我们自己的设备来说，我们需要开发一种可以提供具体交互相关数据的分析工具。要做到这点第一步就是要跟踪和记录使用者的骨骼，然后用这个数据找到故障的模式，一旦我们知道什么出了问题，修理起来就变得简单了。

Kfir Matza：以色列的动作识别技术世界领先

更多精彩，加入图灵访谈微信！

图灵访谈

引用和评论

谷歌开发技术推广部中国市场负责人栾跃：接轨世界、推动创新（图灵访谈）

微帧WZVQA：极致还原人眼感知，精准评估视频画质

书籍-《医学图像分析（论文版）》

书籍-《激光雷达遥感入门与应用》

计算机视觉（语义分割） | 皮带跑偏识别冠军方案解读