谷歌增强了 LiteRT 以实现更快的设备端推理

主要观点:新发布的 LiteRT(原 TensorFlow Lite)引入新 API 以简化设备端 ML 推理,增强 GPU 加速,支持 Qualcomm NPU 加速器及先进推理功能,目标是让开发者更易利用 GPU 和 NPU 加速,通过与 Qualcomm 和 MediaTek 合作在 LiteRT 中添加对其 NPU 的支持,还简化 API 让开发者指定目标后端,API 引入优化推理性能的功能。
关键信息:

  • 新 API 简化推理,增强 GPU 加速和支持 NPU 加速器。
  • MLDrift 为 GPU 加速带来改进,性能优于 CPU 和之前的 GPU 委托。
  • NPUs 能比 CPU 快 25 倍且功耗低五分之一,需自定义 SDK 和依赖。
  • 与 Qualcomm 和 MediaTek 合作添加 NPU 支持,自动下载 SDK 及模型分发。
  • 简化 API 可指定后端,如 CompiledModel::Create 方法支持多种后端。
  • LiteRT API 引入优化推理性能的功能,如零拷贝和异步并发执行。
    重要细节:
  • 提到加速 AI 模型在移动 GPU 和 NPU 上可提高性能和降低功耗。
  • 解释了不同后端的支持及简化过程。
  • 给出下载地址和示例应用。
阅读 43
0 条评论