Milvus - SegmentFault 思否

万物皆可embedding，AI 应用神器 Milvus 登顶数据库顶会 SIGMOD

2021-07-12

阅读 4 分钟

1.4k

Milvus团队期待能打通embedding空间的相关技术，比如中间层、中间层的神经网络模型。落实到具体场景应用上，则期待看到综合场景下搜索技术的突破，对不同模态的数据进行高效准确的关联搜索。身处万物皆可 embedding的AI时代，Milvus团队有什么技术见解，研发工作遵循什么方法，关于AI和数据库这一交叉领域又有怎样的思考...

封面图

Milvus 在 AVX-512 与 AVX2 的性能对比

2020-11-17

阅读 3 分钟

2.8k

指令是计算机程序给计算机处理器的命令。在最低级别上，每条指令是一个 0 和 1 的序列，描述了计算机要执行的物理操作。在计算机的汇编器语言中，每条语言语句一般对应一条处理器指令。CPU 依靠指令来计算和控制系统，指令执行能力是衡量 CPU 性能的重要指标。指令集也与 CPU 效率有密切关系。

基于 Milvus 的钓鱼网站检测

2020-10-27

阅读 3 分钟

1.4k

文章作者：Seven-机器学习算法工程师李晴-Zilliz 数据工程师背景介绍在海量信息中，不乏非法分子利用网络骗取用户信任并从中获利，钓鱼网站就是其中之一。“钓鱼”网站的网址、网页内容、布局等与真实网站极其相似，没有安全意识的网民容易因此上当受骗，造成严重后果。现有的比较典型的检测钓鱼网站的方法有：基于黑白名...

Milvus 新版本 v0.11.0 重磅发布！新增标量字段过滤功能，使用更灵活！

2020-10-20

阅读 2 分钟

2k

发布时间：2020-10-16版本兼容升级必看 ⚠️1. 调整了 partition tag 的支持字符集：不支持使用英文字母、数字、"_"、"$" 以外的字符命名 partition tag。partition tag 的首字母不支持使用英文字母或下划线以外的字符。2. 服务端配置文件结构调整server_config.yaml 更名为 milvus.yaml，配置参数兼容 a.b.c: value 的展...

Milvus v0.10.0 正式发布！

2020-06-16

阅读 1 分钟

1.3k

发布时间：2020-6-15 | 版本兼容 | 兼容性改动更新了 Milvus 配置文件。#2510 | 主要改进优化了系统在存在多个小分段情况下的索引创建时间。#2373 将 FAISS 升级至 1.6.3。#2381 降低了系统在存在大量分区时删除集合需要的时间。#2394 在 GPU 版 Milvus 上优化了 k-selection 算法的实现。#2466 | 问题修复修复了一个...

开源项目的编译优化实践

2020-06-13

阅读 4 分钟

1.4k

Zilliz 公司以 “重新定义数据科学” （Reinvent Data Science）为愿景，专注于研发利用新一代异构计算的开源数据科学软件。随着各项目的蓬勃发展，我们对于持续集成、持续交付、持续部署（CI/CD）都提出了更高的要求。本文是 CI/CD 系列的开篇，重点介绍持续集成的编译优化实践。

基于Milvus向量引擎的WPS智能写作平台架构实践

2020-06-06

阅读 4 分钟

1.9k

结合当下流行的 NLP 等人工智能相关技术，金山办公软件有限公司武汉 AI 部门自主研发了 WPS 智能辅助写作平台。利用意图识别、文本聚类等语义匹配算法，该平台实现了 AI 辅助用户写稿创作，并具备公文模板、素材推荐和辅助生成等特色功能，同时还实现了公文素材的海量收集，数据规模达到千万级文章、百万级提纲和段落。

Milvus数据管理：删除的实现原理

2020-06-06

阅读 4 分钟

1.8k

本文将主要讲述 Milvus 是怎么实现删除功能的。删除是许多用户期待已久的功能，这次终于在 Milvus 0.7.0 版本中发布。区别于直接调用 FAISS 的 remove_ids 接口，为了让删除更加高效，并能够支持更多索引类型，我们做了全新的设计。

Milvus 新版本 v0.9.0 重磅推出！

2020-05-23

阅读 2 分钟

1.1k

发布时间：2020-5-15 | 版本兼容 | 新增功能支持在 Milvus 启动时检查 CPU 指令集、GPU 驱动版本和 CUDA 版本。 #2054 #2111 避免多个 Milvus 实例同时操作同一 Milvus 数据。 #2059 支持日志文件轮转。 #2206 处理搜索请求时暂停创建索引。#2283 | 主要改进重构了日志输出。 #221 升级了 OpenBLAS 版本以提高 Milvus ...

Chat with Milvus #11 回顾- 分布式数据库与Milvus分布式

2020-05-23

阅读 4 分钟

1.4k

视频分布式数据库与Milvus 分布式中我们分析了传统数据库的架构，挑战&解法、分布式数据库的优势与劣势，最后带出了我们对 Milvus 分布式的看法与规划。视频中我们介绍了像是 AWS Aurora、PingCAP 与分布式数据库中间件 ShardingSphere 这些热门的技术，想了解数据库前世今生的你务必点开的视频！

Milvus实战｜以图搜视频系统

2020-05-23

阅读 3 分钟

2k

以图搜视频，顾名思义就是拿一张图片去视频底库里面搜索包含相似镜头的视频。以图搜视频中一个关键的步骤就是视频向量化，视频向量化即在视频中抽取关键帧，对每帧视频进行特征提取，将其转化为结构化的向量。至此，好奇的读者可能会问，这和以图搜图有什么区别呢？是的，对视频所有关键帧图片的搜索本质上就是以图搜图。

Milvus 赋能 AI 药物研发

2020-05-15

阅读 4 分钟

2k

新药研发领域长期以来都以耗时长、成本高、风险大、回报率低而著称，一款新药的平均研发成本已经高达 26 亿美元，而平均耗时需要十年。尽管付出了如此高昂的研发成本和漫长的研发周期，却依然无法保证所研发的药物能够顺利通过全部临床实验而投放市场。即便是难度较低的仿制药研发，其研发的进程也是十分缓慢。

信息推流，小米浏览器的Milvus实践

2020-05-15

阅读 4 分钟

1.3k

Milvus 向量搜索引擎开源半年以来，全球已经有过百家企业或组织用户。小米作为一家专注于智能硬件和电子产品研发的全球化移动互联网企业，也是 Milvus 的重要用户。

AI 搜房，贝壳找房的Milvus实践

2020-04-26

阅读 3 分钟

1.5k

贝壳作为一家房产服务互联网平台，如何在海量房源中选出能够快速成交的房源是对平台和经纪人来说都是一件非常重要同时具有挑战的事情，但是针对房型图，户型信息等一系列非结构化数据在平台中应该怎么搜索呢？

Chat with Milvus #8 回顾: Milvus竞品&开源项目的常见商业模式

2020-04-18

阅读 10 分钟

1.9k

想直接看视频的朋友请点击-> Chat with Milvus 线上问答第八期视频部分Q&A文字实录 User A：第一次看到你们这个项目，想要了解一下。顾老师 @ Milvus：好，没有关系，这不需要准备，我们也想了解一下，就是说你是希望把Milvus这样的一个向量搜索引擎应用到什么样子的一个AI的场景当中？ User A：我觉得像视...

利用Bert和Milvus快速搭建智能问答机器人

2020-04-18

阅读 3 分钟

3.1k

问答系统是自然语言处理领域一个很经典的问题，它用于回答人们以自然语言形式提出的问题，有着广泛的应用。其经典应用场景包括：智能语音交互、在线客服、知识获取、情感类聊天等。常见的分类有：生成型、检索型问答系统；单轮问答、多轮问答系统；面向开放领域、特定领域的问答系统。本文涉及的主要是在检索型、面向特...

Milvus之WAL介绍

2020-04-11

阅读 3 分钟

1.6k

Milvus 是一款开源的特征向量相似度搜索引擎，在2020-03-11我们发布了版本0.7.0。在该版本中，Milvus 为存储系统添加了一个新组件— WAL（write-ahead logging，预写日志系统）。今天我们就来详细介绍一下相关背景和实现原理，以及如何能更好地使用它。

国产开源项目Milvus加入世界顶级开源组织

2020-04-11

阅读 2 分钟

1.7k

Milvus 特征向量相似度搜索引擎通过技术委员会投票，正式加入 Linux AI（LF AI）基金会成为其最新的孵化项目。LF AI 基金会的使命是建立和支持开放的人工智能社区，通过促进协作和创新为社区所有成员创造新机会，推动人工智能（AI）、机器学习（ML）和深度学习（DL）领域的开源创新。

Milvus v0.7.1 发布：多并发下的性能大幅提升！

2020-04-11

阅读 2 分钟

1.3k

针对 FLAT 索引类型，新增子结构（substructure）和超结构（superstructure）距离计算方式。这两种距离计算方式常用于化学分子式的子结构和超结构搜索。[链接]

Milvus 如何实现数据动态更新与查询

2020-04-11

阅读 3 分钟

3.7k

在这篇文章，我们会主要描述 Milvus 里向量数据是如何被记录在内存中，以及这些记录以怎样的形式维护。我们的设计目标主要有下面三点：数据导入效率要高数据导入后尽快可见避免数据文件碎片化因此，我们建立了插入数据的内存缓冲区（insert buffer），以减少磁盘随机 IO 和操作系统中上下文切换的次数，从而提升数...

4

4

下一页