汀NLP - SegmentFault 思否

人工智能的新篇章：深入了解大型语言模型(LLM)的应用与前景

汀丶

2023-12-04

阅读 11 分钟

1.9k

LLM 技术的主要特点是可以从大规模文本数据中学习到丰富的语言知识和语言模式，使得模型能够对自然语言的语义、语法等进行理解和生成，具备更强的语言处理能LLM 技术在自然语言处理领域具有广泛的应用前景。以下是一些应用前景的示例：

全新Self-RAG框架亮相，自适应检索增强助力超越ChatGPT与Llama2，提升事实性与引用准确性

汀丶

2023-11-23

阅读 7 分钟

672

为了解决这一问题，之前的研究人员提出了检索增强生成（RAG），它通过检索相关知识来增强 LMs 的效果，尤其在需要大量知识的任务，如问答中，表现出色。

应对数据爆炸时代，揭秘向量数据库如何成为AI开发者的新宠，各数据库差异对比

汀丶

2023-11-22

阅读 11 分钟

1.5k

随着大模型的爆火，向量数据库也越发成为开发者关注的焦点。为了方便大家更好地了解向量数据库，我们特地推出了《Hello, VectorDB》系列，本文将从宏观角度、向量数据库与其他算法库的区别、技术难点及如何选择向量数据库等方面，带大家认识真正的向量数据库。

Milvus 2.3.功能全面升级，核心组件再升级，超低延迟、高准确度、MMap一触开启数据处理量翻倍、支持GPU使用！

汀丶

2023-11-21

阅读 13 分钟

1.1k

Milvus 2.3.0 不仅包含大量的社区呼声很高的新功能，还带来了诸如 GPU 支持、Query 架构升级、更强的负载均衡、调度能力、新的消息队列Arm 版本镜像、可观测性、运维工具升级等能力，这标志着 Milvus 2.x 系列从 production ready，走向成熟、可靠、生态繁荣、运维更友好的发展路径。

激发创新，助力研究：CogVLM，强大且开源的视觉语言模型亮相

汀丶

2023-11-21

阅读 3 分钟

561

CogVLM-17B 在 10 个经典跨模态基准测试上取得了 SOTA 性能，包括 NoCaps、Flicker30k captioning、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA 和 TDIUC，而在 VQAv2、OKVQA、TextVQA、COCO captioning 等方面则排名第二，超越或与 PaLI-X 55B 持平。您可以通过线上 demo 体验 CogVLM 多模态对...

Milvus性能优化提速之道：揭秘优化技巧，避开十大误区，确保数据一致性无忧，轻松实现高性能

汀丶

2023-11-15

阅读 12 分钟

986

Milvus 是全球最快的向量数据库，在最新发布的 Milvus 2.2 benchmark中，Milvus 相比之前的版本，取得了 50% 以上的性能提升。值得一提的是，在 Master branch 的最新分支中，Milvus 的性能又更进一步，在 1M 向量串行执行的场景下取得了 3ms 以下的延迟，整体 QPS 甚至超过了 ElasticSearch 的 10 倍。那么，如何使用 M...

突破性的多语言代码大模型基CodeShell：引领AI编程新时代

汀丶

2023-11-03

阅读 5 分钟

550

CodeShell是北京大学知识计算实验室联合四川天府银行AI团队研发的多语言代码大模型基座。它拥有70亿参数，经过对五千亿Tokens的训练，并具有8192的上下文窗口长度。CodeShell在权威的代码评估Benchmark（HumanEval与MBPP）上取得了同等规模最好的性能。这个项目为多语言代码处理和理解提供了有力的工具

Elasticsearch实战：常见错误及详细解决方案

汀丶

2023-11-02

阅读 6 分钟

1.1k

可以看到"read_only_allow_delete" : "true"，说明此时无法插入数据，当然，我们也可以模拟出来这个错误：

ElasticSearch实战指南必知必会：安装分词器、高级查询、打分机制

汀丶

2023-11-02

阅读 13 分钟

741

elasticsearch 提供了几个内置的分词器：standard analyzer(标准分词器)、simple analyzer(简单分词器)、whitespace analyzer（空格分词器）、language analyzer（语言分词器）

ElasticSearch深度解析入门篇：高效搜索解决方案的介绍与实战案例讲解，带你避坑

汀丶

2023-10-31

阅读 6 分钟

708

如：当系统数据量上了 10 亿、100 亿条的时候，我们在做系统架构的时候通常会从以下角度去考虑问题： 1）用什么数据库好？(mysql、oracle、mongodb、hbase…) 2）如何解决单点故障；(lvs、F5、A10、Zookeep、MQ) 3）如何保证数据安全性；(热备、冷备、异地多活) 4）如何解决检索难题；(数据库代理中间件：mysql-proxy、Co...

多模态对比语言图像预训练CLIP：打破语言与视觉的界限

汀丶

2023-10-31

阅读 6 分钟

961

一种基于多模态（图像、文本）对比训练的神经网络。它可以在给定图像的情况下，使用自然语言来预测最相关的文本片段，而无需为特定任务进行优化。CLIP的设计类似于GPT-2和GPT-3，具备出色的零射击能力，可以应用于多种多模态任务。

释放搜索潜力：基于ES(ElasticSearch)打造高效的语义搜索系统，让信息尽在掌握

汀丶

2023-10-27

阅读 10 分钟

807

PaddleNLP Pipelines 是一个端到端智能文本产线框架，面向 NLP 全场景为用户提供低门槛构建强大产品级系统的能力。本项目将通过一种简单高效的方式搭建一套语义检索系统，使用自然语言文本通过语义进行智能文档查询，而不是关键字匹配。

logstash 与ElasticSearch：从CSV文件到搜索宝库的导入指南

汀丶

2023-10-24

阅读 8 分钟

671

使用 logstash 导入数据到 ES 时，由三个步骤组成：input、filter、output。整个导入过程可视为：unix 管道操作，而管道中的每一步操作都是由 "插件" 实现的。使用 ./bin/logstash-plugin list 查看 logstash 已安装的插件。

ElasticSearch安装、插件介绍及Kibana的安装与使用详解

汀丶

2023-10-24

阅读 4 分钟

531

因为 ElasticSearch 是用 Java 语言编写的，所以必须安装 JDK 的环境，并且是 JDK 1.8 以上，具体操作步骤自行百度

Elasticsearch向量检索的演进与变革：从基础到应用

汀丶

2023-10-20

阅读 6 分钟

791

Elasticsearch 作为一款流行的开源搜索引擎，其在向量检索方面的发展也一直备受关注。本文将回顾 Elasticsearch 向量检索的发展历史，重点介绍各个阶段的特点和进展。以史为鉴，方便大家建立起 Elasticsearch 向量检索的全量认知。

Elasticsearch ---为AI变革提供高级搜索能力[ES向量搜索、常用配置参数、聚合功能等详解]

汀丶

2023-10-19

阅读 11 分钟

903

今天要介绍的 Elasticsearch Relevance Engine™ (ESRE™)，提供了多项用于创建高度相关的 AI 搜索应用程序的新功能。ESRE 站在 Elastic 这个搜索领域的巨人肩膀之上，并基于两年多的 Machine Learning 研发成就构建而成。Elasticsearch Relevance Engine 将 AI 的最佳实践与 Elastic 的文本搜索进行了结合。ESRE 为开发人...

向量召回：深入评估离线体系，探索优质召回方法

汀丶

2023-10-17

阅读 4 分钟

675

近年来，基于向量进行召回的做法在搜索和推荐领域都得到了比较广泛的应用，并且在学术界发表的论文中，基于向量的 dense retrieve 的方法也在不少数据集上都战胜了 sparse retrieve，吸引了越来越多的关注。在内网的不少文章中也都介绍了各种不同的模型和算法，但是目前我们还没有看到比较系统的介绍向量召回评估体系的...

挖掘文本的奇妙力量：传统与深度方法探索匹配之道

汀丶

2023-10-16

阅读 2 分钟

442

许多 NLP 任务的成功离不开训练优质有效的文本表示向量。特别是文本语义匹配（Semantic Textual Similarity，如 paraphrase 检测、QA 的问题对匹配）、文本向量检索（Dense Text Retrieval）等任务。

MetaGPT( The Multi-Agent Framework)：颠覆AI开发的革命性多智能体元编程框架

汀丶

2023-10-13

阅读 6 分钟

744

一个多智能体元编程框架，给定一行需求，它可以返回产品文档、架构设计、任务列表和代码。这个项目提供了一种创新的方式来管理和执行项目，将需求转化为具体的文档和任务列表，使项目管理变得高效而智能。对于需要进行规划和协调的项目，这个框架提供了强大的支持.

数字时代的自我呈现：探索个人形象打造的创新工具——FaceChain深度学习模型工具

汀丶

2023-10-12

阅读 7 分钟

768

FaceChain是一个可以用来打造个人数字形象的深度学习模型工具。用户仅需要提供最低一张照片即可获得独属于自己的个人形象数字替身。FaceChain支持在gradio的界面中使用模型训练和推理能力，也支持资深开发者使用python脚本进行训练推理；同时，欢迎开发者对本Repo进行继续开发和贡献。FaceChain的模型由ModelScope开源模...

私密离线聊天新体验！llama-gpt聊天机器人：极速、安全、搭载Llama 2

汀丶

2023-10-11

阅读 4 分钟

473

Currently, LlamaGPT supports the following models. Support for running custom models is on the roadmap.

开启中文智能之旅：探秘超乎想象的 Llama2-Chinese 大模型世界

汀丶

2023-10-11

阅读 12 分钟

804

本仓库中的代码示例主要是基于Hugging Face版本参数进行调用，我们提供了脚本将Meta官网发布的模型参数转换为Hugging Face支持的格式，可以直接通过transformers库进行加载：参数格式转化

FaceFusion：探索无限创意，创造独一无二的面孔融合艺术！

汀丶

2023-10-10

阅读 5 分钟

844

它使用先进的图像处理技术，允许用户将不同的面部特征融合在一起，创造有趣和令人印象深刻的效果。这个项目的潜在应用包括娱乐、虚拟化妆和艺术创作，为用户提供了创造性的工具

虚拟桌宠模拟器：VPet-Simulator，一个开源的桌宠软件

汀丶

2023-10-10

阅读 2 分钟

1.1k

虚拟桌宠模拟器：VPet-Simulator，一个开源的桌宠软件, 可以内置到任何WPF应用程序虚拟桌宠模拟器一个开源的桌宠软件, 可以内置到任何WPF应用程序获取虚拟桌宠模拟器 OnSteam(免费) 或通过Nuget内置到你的WPF应用程序1.虚拟桌宠模拟器详细介绍虚拟桌宠模拟器是一款桌宠软件,支持各种互动投喂等. 开源免费并且支持创意...

异常检测：探索数据深层次背后的奥秘《下篇》

汀丶

2023-09-25

阅读 5 分钟

808

在实际场景中，很多数据集都是多维度的。随着维度的增加，数据空间的大小（体积）会以指数级别增长，使数据变得稀疏，这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战，对距离的计算，聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性，但是，在高维空间中，所有点对的距离几乎都...

异常检测：探索数据深层次背后的奥秘《中篇》

汀丶

2023-09-22

阅读 11 分钟

763

真实数据集中不同维度的数据通常具有高度的相关性，这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中，这被称为——回归建模，一种参数化的相关性分析。一类相关性分析试图通过其他变量预测单独的属性值，另一类方法用一些潜在变量来代表整个数据。前者的代表是 ...

异常检测：探索数据深层次背后的奥秘《上篇》

汀丶

2023-09-21

阅读 7 分钟

1.6k

条件异常（conditional anomalies），又称上下文异常，指的是在特定情境下个体实例是异常的，在其他情境下都是正常的，例如在特定时间下的温度突然上升或下降，在特定场景中的快速信用卡交易；

解锁搜索新境界！让文本语义匹配助你轻松找到你需要的一切！(快速上手baseline)

汀丶

2023-09-20

阅读 30 分钟

998

汉明距离（Hamming Distance），编辑距离（Levenshtein Distance），欧氏距离（Euclidean Distance），曼哈顿距离（Manhattan Distance）等

探索图像数据中的隐藏信息：语义实体识别和关系抽取的奇妙之旅

汀丶

2023-09-03

阅读 5 分钟

1.5k

关键信息抽取 (Key Information Extraction, KIE)指的是是从文本或者图像中，抽取出关键的信息。针对文档图像的关键信息抽取任务作为OCR的下游任务，存在非常多的实际应用场景，如表单识别、车票信息抽取、身份证信息抽取等。然而，使用人力从这些文档图像中提取或者收集关键信息耗时费力，怎样自动化融合图像中的视觉、...

深入探索OCR技术：前沿算法与工业级部署方案揭秘

汀丶

2023-08-28

阅读 12 分钟

1.6k

OCR（Optical Character Recognition，光学字符识别）是计算机视觉重要方向之一。传统定义的OCR一般面向扫描文档类对象，现在我们常说的OCR一般指场景文字识别（Scene Text Recognition，STR），主要面向自然场景，如下图中所示的牌匾等各种自然场景可见的文字。