主要观点:Chrome 最新更新引入新文本嵌入模型,比前代小 57%(35.14MB 对比 81.91MB)且语义搜索任务性能几乎相同。
关键信息:
- 在 Chrome 二进制组件分析中发现新嵌入模型,用于历史聚类和语义搜索,模型目录为~/AppData/Local/Google/Chrome SxS/User Data/optimization_guide_model_store/57/A3BFD4A403A877EC/。
- 采用多方面测试方法分析模型,包括架构分析、二进制比较、权重量化评估、输出精度测试和语义搜索评估等。
- 关键发现有架构相同、嵌入矩阵量化从 float32 到 int8 使大小大幅减少、输出精度略有提高、语义搜索性能几乎无差异、二进制结构有变化等。
- 此优化对边缘设备模型压缩有重要意义,为用户带来减少存储占用、更快更新、提高资源效率、保持质量和改善电池寿命等好处。
- 还提供了相关代码工具如 TFLite Weight Inspector 和 TFLite Model Comparator 用于分析模型,以及 TFLite Embedding Model Explorer 用于交互比较模型。
重要细节: - 旧模型嵌入矩阵为
arith.constant30: [32128, 512], <class 'numpy.float32'>, 62.75 MB
,新模型为tfl.pseudo_qconst57: [32128, 512], <class 'numpy.int8'>, 15.69 MB
。 - 输出精度分析中旧模型估计精度为 22.59 位,新模型为 25.42 位。
- 语义搜索测试在多种查询下相似度分数几乎相同,结果排名多数相同,推理速度稍快 1 - 2%。
- 二进制结构比较显示 int8 零字节减少 60%,float32 零字节增加 48.5%,运行零的次数增加 53.3%,浮点数张量大小从 67.33MB 减至 5.05MB。
- TFLite 相关代码工具的功能及使用示例,如提取权重、分析模型信息、比较模型等。
- TFLite Embedding Model Explorer 可交互比较两个 TFLite 文本嵌入模型的输入输出形状、计算句子嵌入、可视化相似度等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。