从30天到1天，专业视频制作背后的技术探索之路

编者按： 在视频化内容发展之初，企业采用门槛较低的视频内容生产工具（如自建的生产工具或者开源的生产工具），生产一批视频内容满足当时的需求。然而，随着视频场景的不断丰富和用户的需求大幅度增加，原来生产工具生产的视频内容效果简单，已无法满足多样性和差异化的需求。如何解决这一痛点？在保证视频质量的前提下，又如何做到低成本生产高质量的视频内容？

近日，LiveVideoStack采访到了视杏科技的创始人&CEO李志强，请他来跟大家谈谈市面上内容生产工具和解决方案普遍存在的痛点、视杏科技旗下的专业视频内容制作神器VE引擎、视杏科技的技术创新和研究重点以及海外市场探索等话题。

视杏科技创始人&CEO 李志强

LiveVideoStack：李老师，您好。欢迎参加我们的访谈，请您向我们的读者介绍一下自己以及视杏科技。

李志强： 大家好，我是视杏的创始人李志强。视杏由一个技术和艺术跨界的团队组成，主要关注影视级视频处理技术和相关解决方案的研发，目前的核心产品是VE视频引擎。

我是广告学专业毕业，大学期间对设计师工具研发技术和图形学技术很感兴趣，就开始了相关学习，并和国外很多艺术工作室合作过。14年大学毕业后加入了深圳一个创业团队，开发了短视频产品“逗拍”，我负责产品的底层视频渲染引擎的研发。17年来杭州成立了视杏科技，17和18年主要在做一些移动端AR渲染引擎的开发，19年开始专注专业视频技术领域并推出了VE，算是视频技术领域的连续创业者了。

LiveVideoStack：VE视频引擎是视杏科技旗下非常核心的产品，目前已经推出了3.0版本。您能否简单介绍一下这款产品？

李志强： 简单来讲，VE是一套面向B端企业的低门槛、智能化的影视级专业视频内容制作解决方案。

我们2019年初推出VE 1.0，经过三年的打磨，于2021年底推出了具有重大意义的3.0版本。

VE是要解决专业级视频内容的生产问题，这里的专业级指的是用于商业目的，内容质量和设计规格要求高的视频内容。区别于C端用户对于短视频制作的需求，专业视频的需求存在于各个行业中，比如广告营销、电商服务、影视动画、在线教育等等。以往专业视频主要靠视频设计师定制设计，但是近几年需求的爆发性增长，行业需要一套效率更高、成本更低、更加智能的解决方案。

VE底层是一套完全自研的对标After Effects的渲染架构，经过三年迭代，3.0版本已经实现了80%的AE核心功能。基于这套底层架构，我们面向客户提供了跨平台的模板化视频制作SDK和视频剪辑SDK。同时，我们还提供了强大的视频模板制作工具VE Exporter，让设计师能把自己的创作导出成模板配合SDK进行使用。

我们认为专业视频的制作离不开设计师。 定制设计中，设计师产出的是视频文件，在VE的解决方案里，设计师可以把作品变成模板数据包，需求方在制作视频时，就可以抛开设计师，利用VE SDK对模板数据包进行个性化修改来制作符合需求的专业视频。对模板数据的个性化修改也可以通过智能化手段来进行，实现视频制作的自动化。这样，专业级视频的制作效率就大大提升了，成本也降到了手工定制的百分之一甚至千分之一。

LiveVideoStack：您认为目前市面上的内容生产工具和解决方案普遍存在哪些痛点？VE视频引擎和其他的视频技术解决方案的主要差异点在哪？相比其他技术解决方案，它有哪些优势？

李志强： 我觉得单就视频内容制作来说，有一个大的趋势引发的一系列痛点越来越明显，那就是用户对于视频内容升级的需求。简单来讲就是在日日接触大量的视频内容后，大家品味和审美提升了，希望能看到、做出质量更高的视频内容。

看得到的前提是做得出。对于用户数量众多的C端短视频市场，光靠平台的力量去制作优质视频内容是不够的，还是要靠PGC甚至UGC。所以我们会发现在C端领域，所有的短视频工具App都在越变越复杂，使用门槛越来越高。当然也有产品会强调简单保持克制，但往往制作出来的视频质量又乏善可陈了。

B端领域又是另外一番情况，B端需求爆发时间点较晚，SaaS产品首先强调降本增效，市面主流产品和技术方案的能力也处于这个阶段。它们往往是把以前服务C端用户制作短视频的技术拿来生产B端专业视频。这样确实能够达到降本增效，但是生产出来的视频内容质量对于专业视频标准来讲很一般。观众以前看惯了设计师定制设计的作品，对专业视频内容的质量是有期待的。所以这些新产品、新技术生产出来的视频并不能达到观众的要求，也就难以完成商业转化。那么这些产品和方案往往也就是失效的。

VE的这套模板化内容制作的逻辑并不新鲜，其他内容形态的制作已经大量使用，例如图片的制作、PPT或者H5页面的制作，甚至面向C端用户的短视频制作也有友商在采用这套模式来赋能C端用户。但是不同点在于，我们保障提高生产效率的同时非常强调VE生产的视频内容的质量。针对我们关注的B端市场的专业级需求，我们提出的要求是VE要具备让设计师能把电影场景、头部品牌宣传片制作成模板，B端用户能用模板制作出电影场景、头部品牌宣传片、酷炫的MV镜头等等。

目标定在这里，所以技术要到位。我们团队在研发VE之前，有多年的设计师工具研发经验，服务过来自美国、英国、法国、俄罗斯等十几个国家的艺术工作室，客户包括谷歌、迪士尼等。在研发VE时，我们希望技术能直接对标行业标杆，所以我们追求技术架构的完整、渲染效果的精确。如我们之前提到，到目前为止，我们已经实现了80%的AE核心功能。这保证了我们的底层渲染能力是能够渲染出影视级的画面动画的。

同时我们丰富的设计师工具开发经验让我们能开发出符合设计师习惯的模板制作工具，让设计师能在1天内上手进行模板制作，这是优质视频模板资源的保障。同时强大易用的设计工具也会提升B端内容生产的效率。我们客户提到，当需要针对用户需求来实现某些特定画面效果时，目前主流的解决方案往往需要定制开发，周期在15-30天，甚至更长。使用VE，客户能很轻松把设计师的能力转化成模板从而实现产品功能，这个过程往往只需要1天。

LiveVideoStack：在过去的一年时间里，视杏科技在技术能力上有哪些突破点？以及今年又有哪些重点研究方向？

李志强： VE在2021年主要实现了三个突破。

一个是技术架构的重构。VE在1.0和2.0阶段，我们主要注重视频画面元素渲染的能力，在渲染能力增强的过程中，客户使用VE制作的视频复杂度也在大幅度增加。例如，19年我们客户通常一个视频模板的图层数量不会超过10层，到21年，客户会经常制作多达五十个，甚至超过一百个图层的视频模板。这个重构主要为了适应更加复杂的视频画面内容制作的需求。当每帧画面需要成千上万个数据元素来描述时，对应的技术架构的效率是很重要的。如此多的数据量对存储解析和渲染计算来讲都是很大的挑战。3.0为了应对这一挑战重构了底层技术，目前在客户那里已经取得了不错的反馈。

第二个是增强VE的拓展性， 这也是技术架构重构带来的突破。VE底层的技术架构和上层业务的耦合度较低，这给我们的业务带来了巨大的灵活性。例如，目前不光是VE的模板，就连大家熟悉的Lottie模板也能在VE SDK上进行渲染。再比如，我们目前业务上提供的模板SDK和剪辑SDK，可以简单理解为模板SDK主要来渲染AE制作的模板，剪辑主要用来实现类似Pr的非线性剪辑。现在模板SDK和剪辑SDK可以混合使用了，用户可以选择一个AE制作的模板，修改完后不需要输出视频文件即可直接导入剪辑SDK中进行后续的剪辑操作，在剪辑的同时仍然可以对模板进行实时修改。这就把视频镜头的设计和多镜头的剪辑流程串起来了，从而带来更多的产品可能性。

第三个是功能的突破。 这些主要是在图形学算法相关领域，体现在更加强大的画面渲染能力和功能点。这里的突破点比较多，就不一一列举了。

今年的重点研究方向是3D内容渲染和云渲染技术的提升。在基本上完成AE的视频制作能力的研发后，我们要开始进入AE没有很好支持的3D场景和动画渲染领域，进一步增强VE的专业视频制作能力。VE目前已经支持了云渲染和Web端渲染，但是随着客户内容复杂度大幅度提升，云渲染和Web端渲染的压力增大，我们也需要对平台的技术架构做优化调整。

LiveVideoStack：我看到视杏推出了设计师社区VE Leap，目前社区活跃度如何？为什么会想到推出这样一个社区？

李志强： 如我上文所讲，我们的解决方案里也为设计师提供了强大的视频模板制作工具，设计师利用我们的工具能制作优秀的视频模板配合VE SDK进行使用，因此我们的B端客户在技术合作后往往还会持续有大量的视频模板制作需求，所以我们搭建了一个开放的设计师社区。

目前社区一方面为设计师持续提供免费优秀的AE特效插件工具，帮助设计师做出更精彩的设计；另一方面为设计师提供创作变现的任务平台，让设计师可以通过制作VE模板来创收。目前我们平台上有1万多名设计师用户和我们进行密切合作。

LiveVideoStack：您认为视频内容生产领域未来的发展方向会是怎么样的？

李志强：如我上文所说，我觉得趋势就是内容升级。目前90%的互联网用户都是短视频内容消费者了，我们已经早就过了教育用户的阶段了，那么接下来就是用户要看到更高质量的视频内容。

那么我们看B端领域也是一样，以前设计师手工设计的模板质量较高，但效率太低。目前新的生成技术基本能解决效率的问题，但是内容质量还无法和手工设计相比，所以接下来的需求肯定也是要往内容质量上走了。

LiveVideoStack：作为视频技术解决方案的输出方，您能否根据目前的一些感知，预测一下，哪些应用场景在未来会非常有前景？视杏在其中会扮演什么样的角色？

李志强： 前面说到，我们已经实现了80%的AE核心功能。保证了我们的底层渲染能力能够渲染出影视级的画面动画，那么最直接的在影视后期这个领域，利用VE的模板SDK可以为用户提供大量优质的网红模板。用户可以按照模板中分镜头的剧情，拍摄相应的素材。在拍摄的过程当中，通过绿幕抠像技术和虚拟背景合成技术能够让拍摄者看到实时的包装效果。拍摄完成即可一键导出分享，影视后期行业的门槛和制作费用将会大大降低，让普通用户和机构创作出专业的视频。对于原生素材的处理这块也会越来越多，例如现在新媒体平台百家争鸣，对新闻素材的快速采编和分发的需求也越来越大。区别于传统、单一的图文展示形态，短视频变成不可或缺的部分。VE的模板SDK和剪辑SDK，能在新闻的采编阶段对素材进行快速包装和处理，提升媒体发布的效率。

LiveVideoStack：您如何看待音视频出海？视杏有没有考虑过探索海外市场？还是已经有这方面的探索了？您可以跟我们介绍一下。

李志强： 我们和国外的艺术工作室以及一些公司已经有一些业务合作了，比如我们2017年开始和谷歌合作的Google Earth Studio产品。但是由于我们前几年的主要精力在技术研发上，所以市场上的布局动作还不大。在接下来我们会加大力度，海外市场也在我们的规划中，预计在接下来的1年多会有一个清晰的海外产品的市场定位和推广路线出来。

LiveVideoStack：您将参加5月份在上海举办的LiveVideoStackCon2022音视频技术大会，能否透露一下会上会做哪方面的分享？

李志强： 我将根据现在企业视频内容升级的现状，和大家分享一下VE视频引擎解决方案是如何在内容生产方面解决这一难点，包括我们底层的渲染架构、在不同场景中如何进行应用，以及会遇到的技术挑战和实践方案等等。

封面图片来自Unsplash，作者Daniel Tomlinson

▼扫描下图二维码了解音视频技术大会更多信息▼

从30天到1天，专业视频制作背后的技术探索之路

LiveVideoStack

引用和评论

AIGC时代下阿里云视频云媒体内容生产技术实践

2025版 RTC、直播、点播技术对比｜腾讯云/即构/声网如何选型

三分钟掌握音视频处理 | 在 Rust 中优雅地集成 FFmpeg

三分钟掌握视频分辨率修改 | 在 Rust 中优雅地使用 FFmpeg

CVPR 2025 | 火山引擎获得NTIRE 视频质量评价挑战赛全球第一

三分钟掌握音视频信息查询 | 在 Rust 中优雅地集成 FFmpeg

【harmonyOS NEXT 下的前端开发者】WAV音频编码实现