汀NLP - SegmentFault 思否

超级AI助手：全新提升！中文NLP训练框架，快速上手，海量训练数据

汀丶

2023-08-25

阅读 9 分钟

目标：基于pytorch、transformers做中文领域的nlp开箱即用的训练框架，提供全套的训练、微调模型（包括大模型、文本转向量、文本生成、多模态等模型）的解决方案；

全套解决方案：中文NLP训练框架，支持大模型训练和文本生成，快速上手，海量训练数据！

汀丶

2023-08-25

阅读 11 分钟

924

超越界限：大模型应用领域扩展，探索文本分类、文本匹配、信息抽取和性格测试等多领域应用

汀丶

2023-08-24

阅读 9 分钟

881

随着 ChatGPT 和 GPT-4 等强大生成模型出现，自然语言处理任务方式正在逐步发生改变。鉴于大模型强大的任务处理能力，未来我们或将不再为每一个具体任务去 finetune 一个模型，而是使用同一个大模型，对不同任务设计其独有的 prompt，以解决不同的任务问题。在该实验中，我们将基于清华开源大模型 ChatGLM-6B，提供多个...

解锁ChatGLM-6B的潜力：优化大语言模型训练，突破任务困难与答案解析难题

汀丶

2023-08-23

阅读 6 分钟

1.3k

解锁ChatGLM-6B的潜力：优化大语言模型训练，突破任务困难与答案解析难题LLM（Large Language Model）通常拥有大量的先验知识，使得其在许多自然语言处理任务上都有着不错的性能。但，想要直接利用 LLM 完成一些任务会存在一些答案解析上的困难，如规范化输出格式，严格服从输入信息等。因此，在这个项目下我们参考 Chat...

精进语言模型：探索LLM Training微调与奖励模型技术的新途径

汀丶

2023-08-23

阅读 6 分钟

973

精进语言模型：探索LLM Training微调与奖励模型技术的新途径LLMs Trainer 是一个旨在帮助人们从零开始训练大模型的仓库，该仓库最早参考自 Open-Llama，并在其基础上进行扩充。有关 LLM 训练流程的更多细节可以参考【LLM】从零开始训练大模型。使用仓库之前，请先安装所有需要的依赖： {代码...} 1. 继续预训练（Contin...

Prompt-“设计提示模板：用更少数据实现预训练模型的卓越表现，助力Few-Shot和Zero-Shot任务”

汀丶

2023-08-21

阅读 9 分钟

1.2k

通过设计提示（prompt）模板，实现使用更少量的数据在预训练模型（Pretrained Model）上得到更好的效果，多用于：Few-Shot，Zero-Shot 等任务。

GPT大语言模型引爆强化学习与语言生成模型的热潮、带你了解RLHF。

汀丶

2023-08-21

阅读 6 分钟

1.1k

随着 ChatGPT 的爆火，强化学习（Reinforcement Learning）和语言生成模型（Language Model）的结合开始变得越来越受人关注。

深入探索智能未来：文本生成与问答模型的创新融合

汀丶

2023-08-17

阅读 5 分钟

715

Mask Then Fill 是一种基于生成模型的信息抽取数据增强策略。对于一段文本，我们其分为「关键信息段」和「非关键信息段」，包含关键词片段称为「关键信息段」。下面例子中标粗的为关键信息片段，其余的为非关键片段。

解锁数据潜力：信息抽取、数据增强与UIE的完美融合

汀丶

2023-08-17

阅读 11 分钟

811

解锁数据潜力：信息抽取、数据增强与UIE的完美融合1.信息抽取（Information Extraction）1.1 IE简介信息抽取是 NLP 任务中非常常见的一种任务，其目的在于从一段自然文本中提取出我们想要的关键信息结构。举例来讲，现在有下面这样一个句子：新东方烹饪学校在成都。我们想要提取这句话中所有有意义的词语，例如：这个关...

NLP文本匹配任务Text Matching 有监督训练：PointWise（单塔）、DSSM（双塔）项目实践

汀丶

2023-08-14

阅读 7 分钟

848

文本匹配多用于计算两个文本之间的相似度，该示例会基于 ESimCSE 实现一个无监督的文本匹配模型的训练流程。文本匹配多用于计算两段「自然文本」之间的「相似度」。

NLP文本匹配任务有监督训练：PointWise（单塔）、DSSM（双塔）项目实践

汀丶

2023-08-14

阅读 15 分钟

1.3k

在这一堆评论中我们想找到跟「水果」相关的评论，那么第 3 条评论就应该被召回。这个问题可以被建模为文本分类对吧，通过训练一个文本分类模型也能达到同样的目的。

开箱即用的对话机器人解决方案，涵盖问答型对话、任务型对话和聊天型对话等多种场景，为您提供全方位的对话交互体验

汀丶

2023-08-13

阅读 5 分钟

737

对话系统经过三代的演变：规则对话系统：垂直领域可以利用模板匹配方法的匹配问句和相应的答案。优点是内部逻辑透明，易于分析调试，缺点是高度依赖专家干预，缺少灵活性和可可拓展性。

一键式文本纠错工具，整合了BERT、ERNIE等多种模型，让您立即享受纠错的便利和效果

汀丶

2023-08-13

阅读 17 分钟

1.5k

pycorrector: 中文文本纠错工具。支持中文音似、形似、语法错误纠正，python3开发。实现了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、Transformer等多种模型的文本纠错，并在SigHAN数据集评估各模型的效果。

精细解析中文公司名称：智能分词工具助力地名、品牌名、行业词和后缀提取

汀丶

2023-08-12

阅读 5 分钟

966

精细解析中文公司名称：智能分词工具助力地名、品牌名、行业词和后缀提取中文公司名称分词工具，支持公司名称中的地名，品牌名（主词），行业词，公司名后缀提取。对公司名文本解析，识别并提取地名（place）、品牌名(brand)、行业词(trade)、公司名后缀词(suffix)。[x] 补充中国三级地名，优化地名提取效果[x] 优化品牌...

精准相似度计算与语义匹配搜索工具包，多维度实现多种算法，覆盖文本、图像等领域，支持文搜、图搜文、图搜图匹配搜索

汀丶

2023-08-12

阅读 8 分钟

866

汉明距离（Hamming Distance），编辑距离（Levenshtein Distance），欧氏距离（Euclidean Distance），曼哈顿距离（Manhattan Distance）等

书写自动智慧文本分类器的开发与应用：支持多分类、多标签分类、多层级分类和Kmeans聚类

汀丶

2023-08-11

阅读 13 分钟

601

文本分类器，提供多种文本分类和聚类算法，支持句子和文档级的文本分类任务，支持二分类、多分类、多标签分类、多层级分类和Kmeans聚类，开箱即用。python3开发。

开启想象翅膀：轻松实现文本生成模型的创作应用，支持LLaMA、ChatGLM、UDA、GPT2等模型，开箱即用

汀丶

2023-08-11

阅读 17 分钟

TextGen实现了多种文本生成模型，包括：LLaMA、ChatGLM、UDA、GPT2、Seq2Seq、BART、T5、SongNet等模型，开箱即用。

TextBrewer:融合并改进了NLP和CV中的多种知识蒸馏技术提升模型的推理速度

汀丶

2023-08-07

阅读 8 分钟

723

TextBrewer是一个基于PyTorch的、为实现NLP中的知识蒸馏任务而设计的工具包，融合并改进了NLP和CV中的多种知识蒸馏技术，提供便捷快速的知识蒸馏框架，用于以较低的性能损失压缩神经网络模型的大小，提升模型的推理速度，减少内存占用。

MiniRBT中文小型预训练模型：结合了全词掩码技术和两段式知识蒸馏技术，加快推理速度

汀丶

2023-08-06

阅读 7 分钟

844

在自然语言处理领域中，预训练语言模型（Pre-trained Language Models）已成为非常重要的基础技术。为了进一步促进中文信息处理的研究发展，哈工大讯飞联合实验室（HFL）基于自主研发的知识蒸馏工具TextBrewer，结合了全词掩码（Whole Word Masking）技术和知识蒸馏（Knowledge Distillation）技术推出中文小型预训练模...

VLE基于预训练文本和图像编码器的图像-文本多模态理解模型：支持视觉问答等

汀丶

2023-08-06

阅读 6 分钟

805

多模态预训练模型通过在多种模态的大规模数据上的预训练，可以综合利用来自不同模态的信息，执行各种跨模态任务。在本项目中，我们推出了VLE (Vision-Language Encoder)，一种基于预训练文本和图像编码器的图像-文本多模态理解模型，可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地，在对语言理解和推理能力...

ChatGenTitle：使用百万arXiv论文信息在LLaMA模型上进行微调的论文题目生成模型

汀丶

2023-08-05

阅读 13 分钟

594

ChatGenTitle：使用百万arXiv论文信息在LLaMA模型上进行微调的论文题目生成模型相关信息1.训练数据集在Cornell-University/arxiv，可以直接使用；2.正式发布LLaMa-Lora-7B-3 和 LLaMa-Lora-7B-3-new 版本的LoRA模型权重，允许本地部署使用；完成了基于alpaca-lora 上进行的LLaMa-Lora-7B-3和LLaMa-Lora-13B-3模型微调；...

基于Milvus+ERNIE+SimCSE+In-batch Negatives样本策略的学术文献语义检索系统

汀丶

2023-08-02

阅读 26 分钟

587

语义索引（可通俗理解为向量索引）技术是搜索引擎、推荐系统、广告系统在召回阶段的核心技术之一。语义索引模型的目标是：给定输入文本，模型可以从海量候选召回库中快速、准确地召回一批语义相关文本。语义索引模型的效果直接决定了语义相关的物料能否被成功召回进入系统参与上层排序，从基础层面影响整个系统的效果。

语义检索系统之排序模块：基于RocketQA的CrossEncoder训练的单塔模型

汀丶

2023-08-02

阅读 42 分钟

968

文本匹配任务数据每一个样本通常由两个文本组成（query，title）。类别形式为 0 或 1，0 表示 query 与 title 不匹配； 1 表示匹配。基于单塔 Point-wise 范式的语义匹配模型 ernie_matching: 模型精度高、计算复杂度高, 适合直接进行语义匹配 2 分类的应用场景。

语义检索系统：基于Milvus 搭建召回系统抽取向量进行检索，加速索引

汀丶

2023-08-02

阅读 20 分钟

770

语义检索系统：基于Milvus 搭建召回系统抽取向量进行检索，加速索引目标：使用 Milvus 搭建召回系统，然后使用训练好的语义索引模型，抽取向量，插入到 Milvus 中，然后进行检索。语义搜索系列文章全流程教学：语义检索系统：基于无监督预训练语义索引召回：SimCSE、Diffcse：语义检索系统：基于in-batch Negatives策略...

基于无监督训练SimCSE+In-batch Negatives策略有监督训练的语义索引召回

汀丶

2023-08-02

阅读 24 分钟

866

语义检索系统：基于无监督预训练语义索引召回：SimCSE、Diffcse

汀丶

2023-08-02

阅读 23 分钟

801

中文多模态医学大模型智能分析X光片，实现影像诊断，完成医生问诊多轮对话

汀丶

2023-07-31

阅读 4 分钟

993

最近，通用领域的大语言模型 (LLM)，例如 ChatGPT，在遵循指令和产生类似人类响应方面取得了显著的成功，这种成功间接促进了多模态大模型的研究和发展，如通用领域的多模态大模型MiniGPT-4、mPLUG-Owl、Multimodal-GPT和LLaVA ，然而，此类多模态大模型却很少出现在医学领域的研究中，阻碍了相关研究发展。visual-med-al...

ChatPaper全流程加速科研：论文阅读+润色+优缺点分析与改进建议+审稿回复

汀丶

2023-07-31

阅读 13 分钟

895

ChatPaper全流程加速科研：论文阅读+润色+优缺点分析与改进建议+审稿回复工具名称工具作用是否在线？在线预览备注ChatPaper通过ChatGPT实现对论文进行总结，帮助科研人进行论文初筛访问wangrongsheng/ChatPaper 使用--原项目地址ChatReviewer利用ChatGPT对论文进行优缺点分析，提出改进建议访问ShiwenNi/ChatReviewer 使...

基于中文金融知识的 LLaMA 系微调模型的智能问答系统

汀丶

2023-07-30

阅读 6 分钟

613

基于 LLaMA 系基模型经过中文金融知识指令精调/指令微调(Instruct-tuning) 的微调模型。通过中文金融公开问答数据+爬取的金融问答数据构建指令数据集，并在此基础上对 LLaMA 系模型进行了指令微调，提高了 LLaMA 在金融领域的问答效果。

ChatIE：通过多轮问答问题实现实命名实体识别和关系事件的零样本信息抽取

汀丶

2023-07-30

阅读 10 分钟

578

零样本信息抽取（Information Extraction，IE）旨在从无标注文本中建立IE系统，因为很少涉及人为干预，该问题非常具有挑战性。但零样本IE不再需要标注数据时耗费的时间和人力，因此十分重要。近来的大规模语言模型（例如GPT-3，Chat GPT）在零样本设置下取得了很好的表现，这启发我们探索基于提示的方法来解决零样本IE任...