Chrome 的新嵌入模型：更小、更快、相同质量

主要观点：Chrome 最新更新引入新文本嵌入模型，比前代小 57%（35.14MB 对比 81.91MB）且语义搜索任务性能几乎相同。
关键信息：

在 Chrome 二进制组件分析中发现新嵌入模型，用于历史聚类和语义搜索，模型目录为~/AppData/Local/Google/Chrome SxS/User Data/optimization_guide_model_store/57/A3BFD4A403A877EC/。
采用多方面测试方法分析模型，包括架构分析、二进制比较、权重量化评估、输出精度测试和语义搜索评估等。
关键发现有架构相同、嵌入矩阵量化从 float32 到 int8 使大小大幅减少、输出精度略有提高、语义搜索性能几乎无差异、二进制结构有变化等。
此优化对边缘设备模型压缩有重要意义，为用户带来减少存储占用、更快更新、提高资源效率、保持质量和改善电池寿命等好处。
还提供了相关代码工具如 TFLite Weight Inspector 和 TFLite Model Comparator 用于分析模型，以及 TFLite Embedding Model Explorer 用于交互比较模型。
重要细节：
旧模型嵌入矩阵为arith.constant30: [32128, 512], <class 'numpy.float32'>, 62.75 MB，新模型为tfl.pseudo_qconst57: [32128, 512], <class 'numpy.int8'>, 15.69 MB。
输出精度分析中旧模型估计精度为 22.59 位，新模型为 25.42 位。
语义搜索测试在多种查询下相似度分数几乎相同，结果排名多数相同，推理速度稍快 1 - 2%。
二进制结构比较显示 int8 零字节减少 60%，float32 零字节增加 48.5%，运行零的次数增加 53.3%，浮点数张量大小从 67.33MB 减至 5.05MB。
TFLite 相关代码工具的功能及使用示例，如提取权重、分析模型信息、比较模型等。
TFLite Embedding Model Explorer 可交互比较两个 TFLite 文本嵌入模型的输入输出形状、计算句子嵌入、可视化相似度等。