谷歌增强了 LiteRT 以实现更快的设备端推理

发布于 5 月 24 日

主要观点：新发布的 LiteRT（原 TensorFlow Lite）引入新 API 以简化设备端 ML 推理，增强 GPU 加速，支持 Qualcomm NPU 加速器及先进推理功能，目标是让开发者更易利用 GPU 和 NPU 加速，通过与 Qualcomm 和 MediaTek 合作在 LiteRT 中添加对其 NPU 的支持，还简化 API 让开发者指定目标后端，API 引入优化推理性能的功能。
关键信息：

新 API 简化推理，增强 GPU 加速和支持 NPU 加速器。
MLDrift 为 GPU 加速带来改进，性能优于 CPU 和之前的 GPU 委托。
NPUs 能比 CPU 快 25 倍且功耗低五分之一，需自定义 SDK 和依赖。
与 Qualcomm 和 MediaTek 合作添加 NPU 支持，自动下载 SDK 及模型分发。
简化 API 可指定后端，如 CompiledModel::Create 方法支持多种后端。
LiteRT API 引入优化推理性能的功能，如零拷贝和异步并发执行。
重要细节：
提到加速 AI 模型在移动 GPU 和 NPU 上可提高性能和降低功耗。
解释了不同后端的支持及简化过程。
给出下载地址和示例应用。

阅读 174