向量动态量化

本文介绍向量检索服务DashVector动态量化功能和作用。

背景介绍

量化（Quantization）是向量检索技术中一种常用的优化方法，通过一定程度的精度（召回率）损失，来换取性能的大幅度提升，以及内存占用（索引文件大小）大幅度降低。

向量检索服务DashVector支持向量的动态量化，用户仅需在新建Collection时选择对应的量化策略，即可无感的使用量化功能。

重要

量化功能 局限性 说明：现阶段，开启量化功能的Collection无法使用Sparse Vector功能。若您有量化+SparseVector结合使用的需求，可加群（官方钉钉群：25130022704）联系我们。

开启动态量化

前提条件

已创建Cluster
已获得API-KEY
已安装最新版SDK

代码示例

说明

需要使用您的api-key替换示例中的YOUR_API_KEY、您的Cluster Endpoint替换示例中的YOUR_CLUSTER_ENDPOINT，代码才能正常运行。
Cluster Endpoint，可在控制台"Cluster详情"中查看。

import dashvector
import numpy as np
from dashvector import VectorParam

client = dashvector.Client(
    api_key='YOUR_API_KEY',
    endpoint='YOUR_CLUSTER_ENDPOINT'
)
assert client

# 创建带有量化策略的collection
ret = client.create('quantize_demo', 
                     vectors=VectorParam(768, quantize_type='DT_VECTOR_INT8'))
print(ret)

collection = client.get('quantize_demo')

# 正常写入向量数据，该向量数据会按照创建collection时定义的量化策略自动进行量化
collection.insert(('1', np.random.rand(768).astype('float32')))

# 通过id获取对应的doc，需注意，这里获取到的向量数据是经过反量化后的近似值，非插入时的原值
doc = collection.fetch('1')

# 若检索时设置返回向量数据，返回的向量数据同样是经过反量化后的近似值，非插入时的原值
docs = collection.query(
    vector=np.random.rand(768).astype('float32'),
    include_vector=True
)

说明

通过获取Doc获取到的向量数据，是经过反量化后的近似值，非插入时的原值。

参数描述

创建Collection时可通过VectorParam类的quantize_type字段来定义量化策略。quantize_type当前可选值如下：

DT_VECTOR_INT8：将Float32向量量化为INT8类型

性能和召回率参考

基于1百万768维数据集

DashVector规格 ：P.large
度量方式 ：cosine
topk ：100

说明

可以看到这个示例中，以4.38%的召回率下降为代价，将索引大小缩减为原来的1/3，同时QPS提升了48%。
以上数据为基于Cohere数据集实测结果，但不同数据集的数据分布对QPS、召回以及压缩比有影响，上述数据仅供参考。

向量动态量化

背景介绍

开启动态量化

前提条件

代码示例

参数描述

性能和召回率参考

基于1百万768维数据集

更多参考

DashVector

引用和评论

Vue.js-Vue实例

手写一个动态海洋和天空效果的vue hooks

你可能不知道的图片加载相关知识

【万字长文】大模型开源开发全景与趋势解读

使用CSS给标题添加书名号并超出省略

原生electron起步-从零到一完成构建和打包

Koa+Typescript起手式(空环境) 不用每次玩node都要搭环境了！