头图

J-Tech Talk 活动预告|近似最近邻搜索算法 HNSW 的改进与优化

J-Tech Talk

由 Jina AI 社区为大家带来的技术分享

工程师们将深入细节地讲解具体的问题

分享 Jina AI 在开发过程中所积累的经验

针对海量向量数据的搜索,无论是工业界还是学术界都做了大量的研究。由于精确的向量搜索在海量数据的场景下搜索时间过长,所以目前的常见做法,是在向量上建立近似搜索索引。学术上我们称之为近似最近邻搜索 ANN (Approximate Nearest Neighbor Search) 问题,通常都是通过牺牲搜索精度来换取时间和空间的方式,从大量样本中获取最近邻。

根据 Benchmark 上 ANN 算法的基准测试结果,基于图结构的 HNSW 算法在查询速度和精度上优于其他 ANN 算法。但是 HNSW 算法本身的主要问题就是对内存占用较大,限制了其可以索引的数据大小。

目前 Jina AI 的开源向量索引产品 AnnLite 的核心近似搜索算法是基于 HNSW 来实现,并在此基础上提供了更加丰富的功能(例如支持前置过滤近似查询)。为了使得 AnnLite 能够具备更强的竞争力和实际应用价值,我们对 HNSW 算法进行了改进和优化。

本期 J-Tech Talk 邀请到了负责本优化项目的叶坚白,来分享《近似最近邻搜索算法 HNSW 的改进与优化》。

分享内容

  1. Annlite 的介绍和使用
    AnnLite 是一款 Jina AI 开发的多模态向量索引产品,旨在和 DocArray 一起使用。
  2. HNSW 算法、 PQ 算法的简介
    在 Annlite 中结合 PQ 算法和 HNSW,以降低内存占用和延迟
  3. 为什么要在 Annlite 中引入 HNSW PQ backend
  4. 在 Jina AI 社区的收获总结
    关于讲师

叶坚白 Jina AI 开源社区 AnnLite 贡献者

本硕就读于中国科学技术大学大数据学院

活动时间

2022 年 10 月 26 日 周三晚 19:00 - 19:45


技术分享实录
Jina 是一个基于云原生的神经搜索框架,目前已在 GitHub 开源。 了解 Jina 及相关 Doc、Examples 请访问...

Jina 是一个基于云原生的神经搜索框架,目前已在 GitHub 开源。

16 声望
6 粉丝
0 条评论
推荐阅读
分享回顾|新岁序开,2023 和Jina AI共同码梦
在坚持开放协作精神、具备全球影响力的 Jina AI 开源社区,每天都有来自世界各地的开发者来到这里,因为技术产生联结,因为联结产生共创。一直以来,我们都为拥有这样一个全球化、多元化和高速发展的社区而感到自...

JinaAI阅读 650

一个开源vue网站博客,nuxt开源网站,前后端分离项目
开媛笔记,基于nuxt ssr首屏服务器端渲染 。用于分享、记录、交流和学习,希望可以帮助到小伙伴们。同时网站在不断更新,创造属于猿(媛)的世界 -$Bao Yalong ..Let's Go! [链接]

jigsaw16阅读 8.4k评论 3

开源问答社区软件 Answer 1.0 正式版发布!
这是继 10 月 Alpha 版本发布后的首个正式版本。你可以使用 Answer 高效地搭建一个问答知识社区,并用于产品技术问答、客户支持、用户交流等场景。

AnswerDev6阅读 2.3k评论 1

封面图
2022风云变幻的一年,我开始思考生活的意义
2022 年对所有人来说,是束缚的一年、也是艰难的一年。这一年疫情起起伏伏,商场歇业,饭店关门,在工作之余吃一碗热乎的刀削面也成了奢侈。对一个北漂来说,“回家”和“进京”从未如此艰难。假期好不容易回趟家,结...

杨成功9阅读 1.3k评论 1

封面图
技术社区的朋友们,让我们在 2050 团聚吧!
提到 2050 你会想到什么? ——第一批 00 后步入 50 岁,刚刚出生的孩子们成为这个世界的中流砥柱;如科幻般的世界:上天下地、无尽探索、发达的医疗、先进的交通;

SegmentFault思否5阅读 12.8k评论 1

如果再来一次,你还会选择互联网么?
现在互联网的就业环境,大家都在感受着一股寒意。也不知道从什么时候开始,身边悲观的声音越来越多了。如果再给你一次机会,你还会选择互联网吗?回答这个问题之前,我想跟大家聊聊一个我朋友的故事。他从学渣到...

敖丙8阅读 1.1k评论 2

封面图
大数据 + VR 全景技术重塑“二手车买车场景”
行内人都知道,二手车交易的核心问题在于车况信息不透明。中国二手车交易市场制度尚不完善,长期以来缺少行业公认的车辆估值标准和车况检测标准,二手车商提供的估值和车况信息不够透明。这导致用户和车商交易双...

之家技术13阅读 12k

封面图

Jina 是一个基于云原生的神经搜索框架,目前已在 GitHub 开源。

16 声望
6 粉丝
宣传栏