RAG 新路径!提升开发效率、用户体验拉满

2 月 5 日
阅读 2 分钟
528
RAG(Retrieval-Augmented Generation)框架结合了强大的信息检索能力和生成模型的能力,允许系统从海量数据中检索相关信息,并基于这些信息生成准确、丰富的回答。随着大语言模型和智能问答技术的崛起,RAG 凭借其独特的结合检索和生成能力,在提供丰富对话式体验和高效文档管理方面成为了行业的热点。

Milvus 上新!全新 Range Search 功能,可精准控制搜索结果

2023-11-14
阅读 3 分钟
251
某天,一位做系统推荐的用户在社区提出了需求,希望 Milvus 能提供一个新功能,可以返回向量距离在一定范围之内的结果。而这不是个例,开发者在做相似性查询时,经常需要对结果做二次过滤。

Hello,Vector DB|可能是最易上手的 Faiss 教程

2023-07-26
阅读 5 分钟
597
网易云音乐是如何根据我的音乐口味推荐相似歌曲的?淘宝是如何判断我的购买喜好的?手机相册又是如何识别照片中的人脸,并将同一个人的照片归为同一组的?

艾瑞巴蒂看过来!OSSChat 上线:融合 CVP,试用通道已开放

2023-04-06
阅读 4 分钟
1.1k
还在纠结于反复查找开源项目的技术文档?团队常因频繁搜索开源项目主页导致效率低下?每天都要问一遍【开源项目中那些“小白问题”究竟有没有更快的解决方法?】

YOWOv2:优秀的实时视频动作检测框架

2023-03-17
阅读 1 分钟
1.1k
为时空动作检测任务设计实时框架仍然是一个挑战。YOWOv2 提出了一种新颖的实时动作检测框架,利用三维骨干和二维骨干进行准确的动作检测。经过改进,YOWOv2 明显优于Y OWO,并且仍然可以保持实时检测。YOWOv2 在数据集 UCF101-24 上以超过 20 FPS 的速度实现了 87.0% 的视频帧 mAP 和 52.8% 的全视频 mAP。在数据集 AVA ...
封面图

Milvus 还有哪些可能性?

2023-03-17
阅读 3 分钟
620
近期,Zilliz 在杭州举办了 2023 年首期 Arch Meetup,在现场,Zilliz 客户工程师张翔、Milvus 社区 Committer 嵇斌、知衣科技研发负责人胡海滨进行了干货满满的分享,Zilliz 云平台研发总监谢宇在演讲的同时更是透露了 Zilliz 即将在国内提供 SaaS 服务的最新动向。从他们的分享中,我们看到了 Milvus 在不同维度的更多...

AltCLIP:改变语言编码器,扩展语言功能

2023-03-16
阅读 1 分钟
1.1k
AltCLIP 提出了一种概念上简单有效的方法,以训练强大的双语或多语多模态表征模型。 以 OpenAI 发布的预训练多模态表示模型 CLIP 为基础,AltCLIP 另外采用了预训练的多语言文本编码器 XLM-R,并通过一个由教师学习和对比学习组成的两阶段训练模式来调整语言和图像表示。 实验结果表明,AltCLIP 在各种公开的图像数据集...
封面图

扩散模型的通用指导手册

2023-03-16
阅读 1 分钟
647
典型的扩散模型经过训练可以接受特定形式的条件指导(比如文本),但不能在没有重新训练的情况下允许其他形式为条件。 为此研究者提出一种通用的指导算法,使扩散模型无需重新训练任何指定用处的组件,就能由任意指导模式控制。 该算法成功地生成了具有引导功能的高质量图像,包括分割、人脸识别、对象检测和分类器信号。

pix2pix3D:只需编辑标签,就能生成更逼真的三维图像

2023-03-15
阅读 1 分钟
1k
pix2pix3D 是一种用于可控逼真图像合成的 3D 感知条件生成模型。 给定一个二维标签图,例如分割图或边缘图,pix2pix3D 模型会学习从不同的角度合成相应的图像。 为了启用显式 3D 用户控制,它使用神经辐射场扩展条件生成模型。 给定广泛可用的单目图像和标签图对,该模型除了颜色和密度之外,还会学习为每个 3D 点分配标...
封面图

Last Week in Milvus

2023-03-14
阅读 2 分钟
584
与 Milvus 2.1 相比,Milvus 2.2 在 cluster 模式下的 QPS 增加了 48% 以上,在 standalone 模式下增加了 75% 以上。
封面图

Visual ChatGPT:跟聊天机器人一起绘画

2023-03-13
阅读 1 分钟
707
从AI作画背后的 Diffusion 到智能聊天里的 ChatGPT,生成模型的热潮一浪接着一浪,似乎也预示着超大预训练模型就是人工智能的未来。在万众瞩目的 GPT 4.0 “官宣”之前,微软率先发布融合了大语言模型和大视觉模型的 Visual ChatGPT。智能对话不再局限于文本类的交流,机器人不仅可以“看图说话”,还能沟通作画。不同模态的...
封面图

聊点不一样的|Be a Serendipper:Woman VS Man

2023-03-09
阅读 4 分钟
688
可以理解为:做一个善于发现美好事物的人,找到属于你自己的那些美好。每个人的生活中都有 Serendipity,有时能被我们一眼看到,有时又会藏在某个角落,等待被我们发现。这个三八节,我们想聊聊专属女性的 Serendipity。不同于以往,这次话题不仅有 4 位闪闪发光的女同事参加,也有 3 位善于发现身边女性闪光点的男同事...
封面图

寻找 Milvus 的第 N+1 种可能

2023-03-09
阅读 1 分钟
680
一千个社区用户眼中有一千个 Milvus,也带来了一千个与 Milvus 有关的故事。这背后或藏着对开源事业的热情,或带着 Milvus 在实战中的思考,又或是努力向 Milvus 用户及开发者提供更好服务的初心。
封面图

如何规避近年频发的数据安全事故?

2023-03-09
阅读 2 分钟
729
近几年,删库跑路事件在国内频频发生。前有“某公司程序员删库跑路被判刑六年”,后有某公司几百家客户数据遭严重删除。这不仅为公司本身带来直接的财产损失,更为严重的是,公司的公信力、品牌形象也随之毁于一旦。
封面图

探究计算机视觉新兴能力:如何通过提示检索提高性能?

2023-03-02
阅读 1 分钟
833
由于其强大的泛化性能,在广泛数据上训练的大规模模型最近已成为计算机视觉中的主流架构。主要探索了大规模视觉模型中的一种新兴的能力,称为“in-context learning”。这种能力允许模型在未见过的任务上进行推断,并且不需要更新模型参数。研究发现,in-context examples(即“提示”)对于该能力的影响很大。为此,Visual ...
封面图

ChatGPT 不是黑魔法,“替代搜索引擎”言之尚早

2023-03-02
阅读 8 分钟
888
整个 LLM 和搜索领域都已经在过去几个月内发生了翻天覆地的变化。ChatGPT 不再是一个玩具,它开始被微软、谷歌集成在搜索以及各个 SaaS 服务中,且取得了令人惊叹的效果。
封面图

CutLER:更好地训练无监督识别模型

2023-03-01
阅读 1 分钟
512
Cut-and-LEaRn (CutLER) 提出一种简单的方法,用于训练无监督对象检测和分割模型。它根据预测对模型进行自我训练,以进一步提高性能。与之前的工作相比,CutLER 能够兼容不同架构的检测模型,并且可以识别多个对象。此外,CutLER 也是一种零样本无监督检测器。在视频帧、绘画、素描等领域的 11 个基准测试中,它将检测性...

根据文本描述生成视频,Tune-A-Video 效果惊艳

2023-02-28
阅读 1 分钟
1.6k
以文本-图片生成模型的成功为灵感,近来文本-视频生成模型也开始采用大规模的文本-视频数据集进行微调训练。然而处理大规模视频数据的成本非常高,为此 Tune-A-Video 提出一种新的任务模型 One-Shot Video Generation,即仅使用单个文本-视频对训练通用领域的文本-视频生成器。 Tune-A-Video 多功能性和有效性,能够在各...
封面图

InstructPix2Pix:指挥机器修改图像

2023-02-28
阅读 1 分钟
872
InstructPix2Pix 提出一种让机器根据人类指令修改图像的方法,即输入图像与文字指令,模型就能遵循这些指令编辑给定的图像。 为了获得该任务的训练数据,InstructPix2Pix 结合了两个大规模预训练模型(GPT-3 和 stable diffusion)的知识来生成图像编辑示例的大型数据集,共包含 450,000 条数据。InstructPix2Pix 能够实...

【AAAI 2023】针对视频分类的知识迁移

2023-02-23
阅读 1 分钟
734
从与任务无关的预训练深度模型中为下游任务转移知识是计算机视觉研究中的一个重要课题。 随着计算能力的增长,现在已经有了大规模的开源视觉语言预训练模型和大量的数据。 因此,针对视频分类任务的知识迁移能够有效提高视频分类的性能和训练速度。通过简单而有效的调整范例,该方法能够在各种视频识别场景(即 zero-sho...
封面图

MAR:针对动作识别的视频掩码建模

2023-02-22
阅读 1 分钟
1.3k
视频识别的标准方法通常会对完整的视频输入进行操作,这往往会由于视频中广泛存在的时空冗余导致效率低下。视频掩码建模(即 VideoMAE)的最新进展表明,普通视觉 Transformer (ViT) 能够在仅给定有限视觉内容的情况下补充时空上下文。受此启发,掩码动作识别(MAR)提出丢弃一部分 patch 并仅对部分视频进行操作,以此...

【ECCV 2022】TeSTRa:稳定的流式视频识别

2023-02-21
阅读 1 分钟
602
流式视频识别视频会关注每一个视频帧中的对象及其行为。一个好的流式识别模型可以捕获视频的长期动态和短期变化。然而在大多数现有方法中,尤其是基于 Transformers 架构的网络,计算复杂度往往会随着所考虑的变化的长度而剧烈增长。为了解决这个问题,TeSTra 提出一种时序平滑 Transformer,可以接收任意长度的输入,并...
封面图

【NeurIPS 2022】视频动作识别,AFNet 用更低的成本接收更多数据

2023-02-20
阅读 1 分钟
646
为了避免大量的计算,现有的视频动作识别方法通常会采样几帧来表示每个视频,然而这往往会限制识别的性能。为此,Ample and Focal Network(AFNet)提出两个分支的结构,以用更少的计算量利用更多的视频帧。在减少计算量的前提下,AFNet 依然能借助其中间特征中的动态选择强制执行隐式时序建模,成功实现更高的精度。此...

SVFormer:走进半监督动作识别的视觉 Transformer

2023-02-17
阅读 1 分钟
1.1k
半监督学习(SSL)的动作识别是一个关键的视频理解任务,然而视频标注的高成本加大了该任务的难度。目前相关的方法主要研究了卷积神经网络,较少对于视觉 Transformers(ViT)模型的探索。SVFormer 研究了如何将半监督 ViT 用于动作识别。它采用稳定的伪标签框架(即 EMA-Teacher)处理未标记的视频样本。它还针对视频数...
封面图

【ECCV 2022】高效视频学习框架 EVL,CLIP 助力视频识别

2023-02-16
阅读 1 分钟
1k
视频识别一直以端到端的学习范式为主,即首先使用预训练图像模型的权重初始化视频识别模型,然后用视频进行端到端训练。虽然这种方式使得视频网络能够从预训练的图像模型中受益,但是它需要大量的计算和内存资源来微调视频模型。另外,如果直接使用预训练好的图像模型而不通过微调主干网络,这样获得的图像特征会导致最...

新型掩码自编码器 AdaMAE,自适应采样

2023-02-15
阅读 1 分钟
706
Masked Autoencoders (MAEs) 通过从可见数据的 token 重建带掩码的输入数据,学习图像、文本、音频、视频等的通用表征。当前的视频 MAE 方法依赖于基于随机补丁、通道、或基于视频帧的屏蔽策略来选择这些 token。AdaMAE 在此基础上提出一种端到端可训练的自适应掩码策略。它从高时空信息区域采样更多的 token,实现了遮...
封面图

Zilliz @ QCon:万物皆可向量化—— Milvus 的现状与未来

2023-02-15
阅读 3 分钟
1.2k
近日,在 QCon 全球软件开发大会北京站的现场,Zilliz 合伙人、技术总监栾小凡进行了名为《万物皆可向量化—— Milvus 的现状与未来》的主题演讲。
封面图

PMR 提取视频特征,理解上下文

2023-02-14
阅读 1 分钟
508
出品人:Towhee 技术团队 王翔宇、顾梦佳视频理解包括许多有趣的任务理解空间和时间信息,其中最具挑战性的问题之一就是特征提取。由于无约束视频冗长和复杂时间结构,从未修剪的视频提取上下文视觉表征变得十分困难。不同于现有的方法使用预训练的骨干网络作为黑盒来提取视觉表示,基于感知的多模态表征 PMR 旨在通过可...
封面图

BATMAN:将双边注意力用于视频对象分割

2023-02-13
阅读 1 分钟
564
视频对象分割 (Video Object Segmentation,VOS) 是视频理解的基础。 基于 Transformer 的方法已经在半监督 VOS 上显示出显着的性能改进。 然而,现有的工作很难分割彼此靠近的相似物体。为此,BATMAN 提出了一种用于半监督 VOS 的新型双边注意力Transformer。大量实验验证了 BATMAN 架构的有效性,它在所有四个流行的 V...
封面图

DAAM:首次利用视觉语言学解释大型扩散模型

2023-02-10
阅读 1 分钟
816
大规模扩散神经网络代表了文本到图像生成的一个重要里程碑,但它们仍然缺乏可解释性分析。DAAM 对最近开源的模型 Stable Diffusion 进行了文本-图像归因分析。为了生成像素级属性图,DAAM 在去噪子网络中放大和聚合交叉注意力字像素分数。通过归因分析,DAAM 主要研究了如何将语法关系转化为视觉交互,并关注了扩散模型...