如何将 CV/ML 模型移植到 NPU 以实现更快的人脸识别

主要观点:

  • 开发团队面临合作伙伴用 Forlinx 单板计算机实施访问控制系统的挑战,为满足人脸识别操作的时间限制,将模型移植到 NPU。
  • 详细介绍了人脸识别的基本流程,包括检测面部、裁剪图像、对齐面部和提取生物特征模板等步骤。
  • 阐述了工作中面临的时间限制及所用硬件 OK3568-C 的基本参数,其并非最强大设备,原有模型测试结果不符合时间限制。
  • 介绍了 Rockchip NPU 推理的两种方式(默认模式和量化推理),通过测量比较 CPU 和 NPU 的推理时间,满足了推理速度要求,但量化模型存在质量问题。
  • 经过调整,确定了在精度方面最优的流水线,即面部拟合器使用 Float 16 版本,模板提取器中最耗时部分量化为 Int8,满足了速度要求且面部识别质量仅有小幅下降。

关键信息:

  • 合作伙伴使用 Forlinx 单板计算机实施访问控制系统。
  • 人脸识别基本流程的四个步骤及相关神经网络。
  • OK3568-C 的 CPU、GPU、NPU 等基本参数。
  • Rockchip NPU 推理的两种方式及测量结果。
  • 调整后满足速度要求且质量仅有小幅下降的最优流水线。

重要细节:

  • 所有生产中使用的面部检测器都是卷积神经网络(CNNs)。
  • 检测到面部后会根据边界框坐标裁剪图像并找到面部关键点。
  • 面部对齐是为了更好地处理人脸识别任务。
  • 不同神经网络在人脸识别流程中的作用。
  • 时间限制包括面部检测器和面部拟合器总操作时间不超过 40ms,提取生物特征模板和比较两个模板不超过 500ms。
  • Rockchip NPU 推理框架为 RKNN-Toolkit2 及支持的模型转换格式。
  • 量化推理中不同版本模型的精度损失情况。
  • 经过调整后的最优流水线在满足速度要求的同时对质量影响最小。
阅读 7
0 条评论