deephub - SegmentFault 思否

UniMS-RAG:用于个性化对话的统一多源RAG框架

deephub

2024-02-01

阅读 2 分钟

804

大型语言模型(llm)在自然语言任务中表现出色，但在对话系统中的个性化和上下文方面面临挑战。这个研究提出了一个统一的多源检索-增强生成系统(UniMS-RAG)，通过将任务分解为知识来源选择、知识检索和响应生成来解决个性化问题。

Langchain中改进RAG能力的3种常用的扩展查询方法

deephub

2024-01-31

阅读 9 分钟

660

Take A Step Back: Evoking Reasoning Via Abstraction In Large Language Models

论文推荐:大语言模型在金融领域的应用调查

deephub

2024-01-30

阅读 2 分钟

671

这篇论文总结了现有LLM在金融领域的应用现状，推荐和金融相关或者有兴趣的朋友都看看论文分为2大部分：1、作者概述了使用llm的现有方法包括使用零样本或少样本的预训练模型，对特定于领域的数据进行微调，还有从头开始训练定制llm，并给出了关键模型的总结与评价。2、根据给定的用例、数据约束、计算和性能需求，提出决...

使用核模型高斯过程(KMGPs)进行数据建模

deephub

2024-01-29

阅读 3 分钟

892

核模型高斯过程(KMGPs)作为一种复杂的工具可以处理各种数据集的复杂性。他通过核函数来扩展高斯过程的传统概念。本文将深入探讨kmgp的理论基础、实际应用以及它们所面临的挑战。

2024年1月的论文推荐

deephub

2024-01-28

阅读 3 分钟

741

一种用于快速预训练的双向编码器。MosaicBERT是针对快速预训练优化的自定义BERT架构。主要架构修改:FlashAttention, ALiBi，门控线性单元和低精度的LayerNorm。

使用Transformer 模型进行时间序列预测的Pytorch代码示例

deephub

2024-01-27

阅读 11 分钟

3.7k

时间序列预测是一个经久不衰的主题，受自然语言处理领域的成功启发，transformer模型也在时间序列预测有了很大的发展。本文可以作为学习使用Transformer 模型的时间序列预测的一个起点。

使用mergekit 合并大型语言模型

deephub

2024-01-26

阅读 4 分钟

1.1k

假设我们有几个模型:一个擅长解决数学问题，另一个擅长编写代码。在两种模型之间切换是一个很麻烦的问题，但是我们可以将它们组合起来，利用两者的优点。而且这种组合的方法可以不需要GPU来完成。

Mistral AI vs. Meta:顶级开源LLM比较

deephub

2024-01-25

阅读 10 分钟

936

为了提高性能，大型语言模型(llm)通常会通过增加模型大小的方法来实现这个目标，但是模型大小的增加也增加了计算成本和推理延迟，增加了在实际场景中部署和使用llm的障碍。

通过4个任务比较LangChain和LlamaIndex

deephub

2024-01-24

阅读 10 分钟

2.6k

我们在本地使用大模型的时候，尤其是构建RAG应用的时候，一般会有2个成熟的框架可以使用LangChain：用开发LLM的通用框架。LlamaIndex：专门用于构建RAG系统的框架。选择一个框架是对于项目的后续开发是非常重要的，因为如果后续更换框架是一个非常困难的事情，所以我们这里对这两个框架做一个简单的对比，这样对于选择会...

Vision Mamba:将Mamba应用于计算机视觉任务的新模型

deephub

2024-01-23

阅读 2 分钟

1.6k

Mamba是LLM的一种新架构，与Transformers等传统模型相比，它能够更有效地处理长序列。就像VIT一样现在已经有人将他应用到了计算机视觉领域，让我们来看看最近的这篇论文“Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Models,”

经过2023年的发展，大语言模型展示出了非常大的潜力，训练越来越大的模型成为有效性评估的一个关键指标，论文《A Comparative Analysis of Fine-Tuned LLMs and Few-Shot Learning of LLMs for Financial Sentiment Analysis》中，作者全面分析了微调大语言模型(llm)及其在金融情绪分析中的零样本和少样本的能力。

2024年1月论文推荐

deephub

2024-01-21

阅读 2 分钟

412

Mistral开发的Mixtral 8x7B模型集成了一个Sparse mix -of- experts (SMoE)架构，在每层中有8个专门的块，通过路由为每个标记令牌选择两个专家来进行专门处理。但它总共访问470亿个参数，但是令牌在每个时间步只与两个专家交互，所以在推理期间主动使用参数为130亿个。

RAG中的3个高级检索技巧

deephub

2024-01-20

阅读 8 分钟

823

RAG系统检索的文档可能并不总是与用户的查询保持一致，这是一个常见的现象。当文档可能缺乏查询的完整答案或者包含冗余信息或包含不相关的细节，或者文档的顺序可能与用户的意图不一致时，就会经常出现这种情况。

4种通过LLM进行文本知识图谱的构建方法对比介绍

deephub

2024-01-19

阅读 10 分钟

1.1k

我们在以前的文章中已经介绍了使用大语言模型将非结构化文本转换为知识图谱。但是对于知识图谱的创建是一个很复杂的过程，比如需要对属性增加限制，创建符合特定主题/模式的图谱，并且有时文档非常大，无法作为单个提示处理，所以在切分后的提示中创建的图谱需要前后一致。

使用SPIN技术对LLM进行自我博弈微调训练

deephub

2024-01-18

阅读 11 分钟

839

2024年是大型语言模型(llm)的快速发展的一年，对于大语言模型的训练一个重要的方法是对齐方法，它包括使用人类样本的监督微调(SFT)和依赖人类偏好的人类反馈强化学习(RLHF)。这些方法在llm中发挥了至关重要的作用，但是对齐方法对人工注释数据有的大量需求。这一挑战使得微调成为一个充满活力的研究领域，研究人员积极致...

Tokenization 指南：字节对编码，WordPiece等方法Python代码详解

deephub

2024-01-17

阅读 35 分钟

955

在2022年11月OpenAI的ChatGPT发布之后，大型语言模型(llm)变得非常受欢迎。从那时起，这些语言模型的使用得到了爆炸式的发展，这在一定程度上得益于HuggingFace的Transformer库和PyTorch等库。

提高代码效率的6个Python内存优化技巧

deephub

2024-01-16

阅读 6 分钟

1.7k

但是其实有许多方法可以显著优化Python程序的内存使用，这些方法可能在实际应用中并没有人注意，所以本文将重点介绍Python的内置机制，掌握它们将大大提高Python编程技能。

RoSA: 一种新的大模型参数高效微调方法

deephub

2024-01-15

阅读 3 分钟

829

随着语言模型不断扩展到前所未有的规模，对下游任务的所有参数进行微调变得非常昂贵，PEFT方法已成为自然语言处理领域的研究热点。PEFT方法将微调限制在一小部分参数中，以很小的计算成本实现自然语言理解任务的最先进性能。

基于协方差矩阵自适应演化策略（CMA-ES）的高效特征选择

deephub

2024-01-14

阅读 10 分钟

781

特征选择是指从原始特征集中选择一部分特征，以提高模型性能、减少计算开销或改善模型的解释性。特征选择的目标是找到对目标变量预测最具信息量的特征，同时减少不必要的特征。这有助于防止过拟合、提高模型的泛化能力，并且可以减少训练和推理的计算成本。

使用Mixtral-offloading在消费级硬件上运行Mixtral-8x7B

deephub

2024-01-13

阅读 5 分钟

709

Mixtral-8x7B是最好的开放大型语言模型(LLM)之一，但它是一个具有46.7B参数的庞大模型。即使量化为4位，该模型也无法在消费级GPU上完全加载(例如，24 GB VRAM是不够的)。

在Colab上测试Mamba

deephub

2024-01-12

阅读 3 分钟

674

他们的研究表明，Mamba是一种状态空间模型(SSM)，在不同的模式(如语言、音频和时间序列)中表现出卓越的性能。为了说明这一点，研究人员使用Mamba-3B模型进行了语言建模实验。该模型超越了基于相同大小的Transformer的其他模型，并且在预训练和下游评估期间，它的表现与大小为其两倍的Transformer模型一样好。

使用CLIP和LLM构建多模态RAG系统

deephub

2024-01-11

阅读 8 分钟

730

在本文中我们将探讨使用开源大型语言多模态模型(Large Language Multi-Modal)构建检索增强生成(RAG)系统。本文的重点是在不依赖LangChain或LLlama index的情况下实现这一目标，这样可以避免更多的框架依赖。

使用PyTorch实现混合专家(MoE)模型

deephub

2024-01-10

阅读 9 分钟

1.2k

Mixtral 8x7B 的推出在开放 AI 领域引发了广泛关注，特别是混合专家（Mixture-of-Experts：MoEs）这一概念被大家所认知。混合专家(MoE)概念是协作智能的象征，体现了“整体大于部分之和”的说法。MoE模型汇集了各种专家模型的优势，以提供更好的预测。它是围绕一个门控网络和一组专家网络构建的，每个专家网络都擅长特定任...

挑战Transformer的新架构Mamba解析以及Pytorch复现

deephub

2024-01-09

阅读 17 分钟

4.1k

今天我们来详细研究这篇论文“Mamba:具有选择性状态空间的线性时间序列建模”Mamba一直在人工智能界掀起波澜，被吹捧为Transformer的潜在竞争对手。到底是什么让Mamba在拥挤的序列建中脱颖而出?在介绍之前先简要回顾一下现有的模型Transformer:以其注意力机制而闻名，其中序列的任何部分都可以动态地与任何其他部分相互作...

使用知识图谱提高RAG的能力，减少大模型幻觉

deephub

2024-01-08

阅读 6 分钟

756

在使用大型语言模型(llm)时，幻觉是一个常见的问题。LLM生成流畅连贯的文本，但往往生成不准确或不一致的信息。防止LLM产生幻觉的方法之一是使用提供事实信息的外部知识来源，如数据库或知识图谱。

使用PyTorch实现去噪扩散模型

deephub

2024-01-07

阅读 17 分钟

698

VAE 采用了编码器、概率潜在空间和解码器。在训练过程中，编码器预测每个图像的均值和方差。然后从高斯分布中对这些值进行采样，并将其传递到解码器中，其中输入的图像预计与输出的图像相似。这个过程包括使用KL Divergence来计算损失。VAEs的一个显著优势在于它们能够生成各种各样的图像。在采样阶段简单地从高斯分布中...