Milvus性能优化提速之道:揭秘优化技巧,避开十大误区,确保数据一致性无忧,轻松实现高性能

2023-11-15
阅读 12 分钟
628
Milvus 是全球最快的向量数据库,在最新发布的 Milvus 2.2 benchmark中,Milvus 相比之前的版本,取得了 50% 以上的性能提升。值得一提的是,在 Master branch 的最新分支中,Milvus 的性能又更进一步,在 1M 向量串行执行的场景下取得了 3ms 以下的延迟,整体 QPS 甚至超过了 ElasticSearch 的 10 倍。那么,如何使用 M...
封面图

突破性的多语言代码大模型基CodeShell:引领AI编程新时代

2023-11-03
阅读 5 分钟
374
CodeShell是北京大学知识计算实验室联合四川天府银行AI团队研发的多语言代码大模型基座。它拥有70亿参数,经过对五千亿Tokens的训练,并具有8192的上下文窗口长度。CodeShell在权威的代码评估Benchmark(HumanEval与MBPP)上取得了同等规模最好的性能。这个项目为多语言代码处理和理解提供了有力的工具
封面图

Elasticsearch实战:常见错误及详细解决方案

2023-11-02
阅读 6 分钟
687
可以看到"read_only_allow_delete" : "true",说明此时无法插入数据,当然,我们也可以模拟出来这个错误:
封面图

ElasticSearch实战指南必知必会:安装分词器、高级查询、打分机制

2023-11-02
阅读 13 分钟
555
elasticsearch 提供了几个内置的分词器:standard analyzer(标准分词器)、simple analyzer(简单分词器)、whitespace analyzer(空格分词器)、language analyzer(语言分词器)
封面图

ElasticSearch深度解析入门篇:高效搜索解决方案的介绍与实战案例讲解,带你避坑

2023-10-31
阅读 6 分钟
362
如:当系统数据量上了 10 亿、100 亿条的时候,我们在做系统架构的时候通常会从以下角度去考虑问题: 1)用什么数据库好?(mysql、oracle、mongodb、hbase…) 2)如何解决单点故障;(lvs、F5、A10、Zookeep、MQ) 3)如何保证数据安全性;(热备、冷备、异地多活) 4)如何解决检索难题;(数据库代理中间件:mysql-proxy、Co...

多模态对比语言图像预训练CLIP:打破语言与视觉的界限

2023-10-31
阅读 6 分钟
596
一种基于多模态(图像、文本)对比训练的神经网络。它可以在给定图像的情况下,使用自然语言来预测最相关的文本片段,而无需为特定任务进行优化。CLIP的设计类似于GPT-2和GPT-3,具备出色的零射击能力,可以应用于多种多模态任务。
封面图

释放搜索潜力:基于ES(ElasticSearch)打造高效的语义搜索系统,让信息尽在掌握

2023-10-27
阅读 10 分钟
608
PaddleNLP Pipelines 是一个端到端智能文本产线框架,面向 NLP 全场景为用户提供低门槛构建强大产品级系统的能力。本项目将通过一种简单高效的方式搭建一套语义检索系统,使用自然语言文本通过语义进行智能文档查询,而不是关键字匹配。
封面图

logstash 与ElasticSearch:从CSV文件到搜索宝库的导入指南

2023-10-24
阅读 8 分钟
486
使用 logstash 导入数据到 ES 时,由三个步骤组成:input、filter、output。整个导入过程可视为:unix 管道操作,而管道中的每一步操作都是由 "插件" 实现的。使用 ./bin/logstash-plugin list 查看 logstash 已安装的插件。
封面图

ElasticSearch安装、插件介绍及Kibana的安装与使用详解

2023-10-24
阅读 4 分钟
371
因为 ElasticSearch 是用 Java 语言编写的,所以必须安装 JDK 的环境,并且是 JDK 1.8 以上,具体操作步骤自行百度
封面图

Elasticsearch向量检索的演进与变革:从基础到应用

2023-10-20
阅读 6 分钟
572
Elasticsearch 作为一款流行的开源搜索引擎,其在向量检索方面的发展也一直备受关注。本文将回顾 Elasticsearch 向量检索的发展历史,重点介绍各个阶段的特点和进展。以史为鉴,方便大家建立起 Elasticsearch 向量检索的全量认知。
封面图

Elasticsearch ---为AI变革提供高级搜索能力[ES向量搜索、常用配置参数、聚合功能等详解]

2023-10-19
阅读 11 分钟
591
今天要介绍的 Elasticsearch Relevance Engine™ (ESRE™),提供了多项用于创建高度相关的 AI 搜索应用程序的新功能。ESRE 站在 Elastic 这个搜索领域的巨人肩膀之上,并基于两年多的 Machine Learning 研发成就构建而成。Elasticsearch Relevance Engine 将 AI 的最佳实践与 Elastic 的文本搜索进行了结合。ESRE 为开发人...
封面图

向量召回:深入评估离线体系,探索优质召回方法

2023-10-17
阅读 4 分钟
417
近年来,基于向量进行召回的做法在搜索和推荐领域都得到了比较广泛的应用,并且在学术界发表的论文中,基于向量的 dense retrieve 的方法也在不少数据集上都战胜了 sparse retrieve,吸引了越来越多的关注。在内网的不少文章中也都介绍了各种不同的模型和算法,但是目前我们还没有看到比较系统的介绍向量召回评估体系的...

挖掘文本的奇妙力量:传统与深度方法探索匹配之道

2023-10-16
阅读 2 分钟
241
许多 NLP 任务的成功离不开训练优质有效的文本表示向量。特别是文本语义匹配(Semantic Textual Similarity,如 paraphrase 检测、QA 的问题对匹配)、文本向量检索(Dense Text Retrieval)等任务。
封面图

MetaGPT( The Multi-Agent Framework):颠覆AI开发的革命性多智能体元编程框架

2023-10-13
阅读 6 分钟
479
一个多智能体元编程框架,给定一行需求,它可以返回产品文档、架构设计、任务列表和代码。这个项目提供了一种创新的方式来管理和执行项目,将需求转化为具体的文档和任务列表,使项目管理变得高效而智能。对于需要进行规划和协调的项目,这个框架提供了强大的支持.

数字时代的自我呈现:探索个人形象打造的创新工具——FaceChain深度学习模型工具

2023-10-12
阅读 7 分钟
520
FaceChain是一个可以用来打造个人数字形象的深度学习模型工具。用户仅需要提供最低一张照片即可获得独属于自己的个人形象数字替身。FaceChain支持在gradio的界面中使用模型训练和推理能力,也支持资深开发者使用python脚本进行训练推理;同时,欢迎开发者对本Repo进行继续开发和贡献。FaceChain的模型由ModelScope开源模...

私密离线聊天新体验!llama-gpt聊天机器人:极速、安全、搭载Llama 2

2023-10-11
阅读 4 分钟
279
Currently, LlamaGPT supports the following models. Support for running custom models is on the roadmap.
封面图

开启中文智能之旅:探秘超乎想象的 Llama2-Chinese 大模型世界

2023-10-11
阅读 12 分钟
554
本仓库中的代码示例主要是基于Hugging Face版本参数进行调用,我们提供了脚本将Meta官网发布的模型参数转换为Hugging Face支持的格式,可以直接通过transformers库进行加载:参数格式转化
封面图

FaceFusion:探索无限创意,创造独一无二的面孔融合艺术!

2023-10-10
阅读 5 分钟
581
它使用先进的图像处理技术,允许用户将不同的面部特征融合在一起,创造有趣和令人印象深刻的效果。这个项目的潜在应用包括娱乐、虚拟化妆和艺术创作,为用户提供了创造性的工具
封面图

虚拟桌宠模拟器:VPet-Simulator,一个开源的桌宠软件

2023-10-10
阅读 2 分钟
812
虚拟桌宠模拟器:VPet-Simulator,一个开源的桌宠软件, 可以内置到任何WPF应用程序虚拟桌宠模拟器 一个开源的桌宠软件, 可以内置到任何WPF应用程序获取虚拟桌宠模拟器 OnSteam(免费) 或 通过Nuget内置到你的WPF应用程序1.虚拟桌宠模拟器 详细介绍虚拟桌宠模拟器是一款桌宠软件,支持各种互动投喂等. 开源免费并且支持创意...
封面图

异常检测:探索数据深层次背后的奥秘《下篇》

2023-09-25
阅读 5 分钟
600
在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都...
封面图

异常检测:探索数据深层次背后的奥秘《中篇》

2023-09-22
阅读 11 分钟
620
  真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。  一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是 ...
封面图

异常检测:探索数据深层次背后的奥秘《上篇》

2023-09-21
阅读 7 分钟
1.2k
条件异常(conditional anomalies),又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的,例如在特定时间下的温度突然上升或下降,在特定场景中的快速信用卡交易;
封面图

解锁搜索新境界!让文本语义匹配助你轻松找到你需要的一切!(快速上手baseline)

2023-09-20
阅读 30 分钟
808
汉明距离(Hamming Distance),编辑距离(Levenshtein Distance),欧氏距离(Euclidean Distance),曼哈顿距离(Manhattan Distance)等
封面图

探索图像数据中的隐藏信息:语义实体识别和关系抽取的奇妙之旅

2023-09-03
阅读 5 分钟
1.3k
关键信息抽取 (Key Information Extraction, KIE)指的是是从文本或者图像中,抽取出关键的信息。针对文档图像的关键信息抽取任务作为OCR的下游任务,存在非常多的实际应用场景,如表单识别、车票信息抽取、身份证信息抽取等。然而,使用人力从这些文档图像中提取或者收集关键信息耗时费力,怎样自动化融合图像中的视觉、...
封面图

深入探索OCR技术:前沿算法与工业级部署方案揭秘

2023-08-28
阅读 12 分钟
1.3k
OCR(Optical Character Recognition,光学字符识别)是计算机视觉重要方向之一。传统定义的OCR一般面向扫描文档类对象,现在我们常说的OCR一般指场景文字识别(Scene Text Recognition,STR),主要面向自然场景,如下图中所示的牌匾等各种自然场景可见的文字。
封面图

超级AI助手:全新提升!中文NLP训练框架,快速上手,海量训练数据

2023-08-25
阅读 9 分钟
867
目标:基于pytorch、transformers做中文领域的nlp开箱即用的训练框架,提供全套的训练、微调模型(包括大模型、文本转向量、文本生成、多模态等模型)的解决方案;
封面图

全套解决方案:中文NLP训练框架,支持大模型训练和文本生成,快速上手,海量训练数据!

2023-08-25
阅读 11 分钟
773
目标:基于pytorch、transformers做中文领域的nlp开箱即用的训练框架,提供全套的训练、微调模型(包括大模型、文本转向量、文本生成、多模态等模型)的解决方案;
封面图

超越界限:大模型应用领域扩展,探索文本分类、文本匹配、信息抽取和性格测试等多领域应用

2023-08-24
阅读 9 分钟
744
随着 ChatGPT 和 GPT-4 等强大生成模型出现,自然语言处理任务方式正在逐步发生改变。鉴于大模型强大的任务处理能力,未来我们或将不再为每一个具体任务去 finetune 一个模型,而是使用同一个大模型,对不同任务设计其独有的 prompt,以解决不同的任务问题。在该实验中,我们将基于清华开源大模型 ChatGLM-6B, 提供多个...
封面图

解锁ChatGLM-6B的潜力:优化大语言模型训练,突破任务困难与答案解析难题

2023-08-23
阅读 6 分钟
1.2k
解锁ChatGLM-6B的潜力:优化大语言模型训练,突破任务困难与答案解析难题LLM(Large Language Model)通常拥有大量的先验知识,使得其在许多自然语言处理任务上都有着不错的性能。但,想要直接利用 LLM 完成一些任务会存在一些答案解析上的困难,如规范化输出格式,严格服从输入信息等。因此,在这个项目下我们参考 Chat...
封面图

精进语言模型:探索LLM Training微调与奖励模型技术的新途径

2023-08-23
阅读 6 分钟
873
精进语言模型:探索LLM Training微调与奖励模型技术的新途径LLMs Trainer 是一个旨在帮助人们从零开始训练大模型的仓库,该仓库最早参考自 Open-Llama,并在其基础上进行扩充。有关 LLM 训练流程的更多细节可以参考 【LLM】从零开始训练大模型。使用仓库之前,请先安装所有需要的依赖: {代码...} 1. 继续预训练(Contin...
封面图