deephub - SegmentFault 思否

5种搭建LLM服务的方法和代码示例

deephub

4 月 22 日

阅读 6 分钟

在不断发展的大型语言模型（LLMs）领域中，用于支持这些模型的工具和技术正以与模型本身一样快的速度进步。在这篇文章中，我们将总结5种搭建开源大语言模型服务的方法，每种都附带详细的操作步骤，以及各自的优缺点。

使用ORPO微调Llama 3

deephub

4 月 21 日

阅读 6 分钟

ORPO是一种新的微调技术，它将传统的监督微调和偏好对齐阶段结合到一个过程中。减少了训练所需的计算资源和时间。论文的实证结果表明，ORPO在各种模型大小和基准上都优于其他对齐方法，所以这次我们就来使用最新的Llama 3来测试下ORPO的效果。

RAG 2.0架构详解：构建端到端检索增强生成系统

deephub

4 月 19 日

阅读 6 分钟

关于检索增强生成（RAG）的文章已经有很多了，如果我们能创建出可训练的检索器，或者说整个RAG可以像微调大型语言模型（LLM）那样定制化的话，那肯定能够获得更好的结果。但是当前RAG的问题在于各个子模块之间并没有完全协调，就像一个缝合怪一样，虽然能够工作但各部分并不和谐，所以我们这里介绍RAG 2.0的概念来解决这...

PyTorch小技巧：使用Hook可视化网络层激活（各层输出）

deephub

4 月 17 日

阅读 3 分钟

这篇文章将演示如何可视化PyTorch激活层。可视化激活，即模型内各层的输出，对于理解深度神经网络如何处理视觉信息至关重要，这有助于诊断模型行为并激发改进。

ORPO偏好优化：性能和DPO一样好并且更简单的对齐方法

deephub

4 月 16 日

阅读 6 分钟

现在有许多方法可以使大型语言模型（LLM）与人类偏好保持一致。以人类反馈为基础的强化学习（RLHF）是最早的方法之一，并促成了ChatGPT的诞生，但RLHF的成本非常高。与RLHF相比，DPO、IPO和KTO的成本明显更低，因为它们不需要奖励模型。

时空图神经网络ST-GNN的概念以及Pytorch实现

deephub

4 月 15 日

阅读 12 分钟

在我们周围的各个领域，从分子结构到社交网络，再到城市设计结构，到处都有相互关联的图数据。图神经网络（GNN）作为一种强大的方法，正在用于建模和学习这类数据的空间和图结构。它已经被应用于蛋白质结构和其他分子应用，例如药物发现，以及模拟系统，如社交网络。标准的GNN可以结合来自其他机器学习模型的想法，比如...

Moirai：Salesforce的时间序列预测基础模型

deephub

4 月 14 日

阅读 9 分钟

在过去的几个月中，时间序列基础模型的发展速度一直在加快，每个月都能看到新模型的发布。从TimeGPT 开始，我们看到了 Lag-Llama 的发布，Google 发布了 TimesFM，Amazon 发布了 Chronos，Salesforce 发布了 Moirai。TimesFM是信息最多的模型，而Lag-Llama、Chronos我们都做过详细的介绍。今天我们来详细介绍一下Moirai...

PiSSA ：将模型原始权重进行奇异值分解的一种新的微调方法

deephub

4 月 12 日

阅读 1 分钟

我们开始看4月的新论文了，这是来自北京大学人工智能研究所、北京大学智能科学与技术学院的研究人员发布的Principal Singular Values and Singular Vectors Adaptation（PiSSA）方法。

10个大型语言模型(LLM)常见面试问题和答案解析

deephub

4 月 11 日

阅读 4 分钟

今天我们来总结以下大型语言模型面试中常问的问题1、哪种技术有助于减轻基于提示的学习中的偏见?A.微调 Fine-tuningB.数据增强 Data augmentationC.提示校准 Prompt calibrationD.梯度裁剪 Gradient clipping答案:C提示校准包括调整提示，尽量减少产生的输出中的偏差。微调修改模型本身，而数据增强扩展训练数据。梯度裁...

推测解码：在不降低准确性的情况下将LLM推理速度提高2 - 3倍

deephub

4 月 10 日

阅读 3 分钟

在本篇文章我们将详细讨论推测解码，这是一种可以将LLM推理速度提高约2 - 3倍而不降低任何准确性的方法。我们还将会介绍推测解码代码实现，并看看它与原始transformer 实现相比到底能快多少。

5种常用于LLM的令牌遮蔽技术介绍以及Pytorch的实现

deephub

4 月 9 日

阅读 19 分钟

令牌掩码Token Masking是一种广泛应用于语言模型分类变体和生成模型训练的策略。BERT语言模型首先使用，并被用于许多变体(RoBERTa, ALBERT, DeBERTa…)。

为什么大型语言模型都在使用 SwiGLU 作为激活函数？

deephub

4 月 8 日

阅读 3 分钟

116

如果你一直在关注大型语言模型的架构，你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数，我们本篇文章就来对他进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数，它结合了SWISH和GLU两者的特点。

归一化技术比较研究：Batch Norm, Layer Norm, Group Norm

deephub

4 月 7 日

阅读 4 分钟

133

归一化层是深度神经网络体系结构中的关键，在训练过程中确保各层的输入分布一致，这对于高效和稳定的学习至关重要。归一化技术的选择（Batch, Layer, GroupNormalization）会显著影响训练动态和最终的模型性能。每种技术的相对优势并不总是明确的，随着网络体系结构、批处理大小和特定任务的不同而变化。

大模型中常用的注意力机制GQA详解以及Pytorch代码实现

deephub

4 月 3 日

阅读 4 分钟

101

分组查询注意力 (Grouped Query Attention) 是一种在大型语言模型中的多查询注意力 (MQA) 和多头注意力 (MHA) 之间进行插值的方法，它的目标是在保持 MQA 速度的同时实现 MHA 的质量。

大语言模型中常用的旋转位置编码RoPE详解：为什么它比绝对或相对位置编码更好?

deephub

4 月 1 日

阅读 5 分钟

185

自 2017 年发表“ Attention Is All You Need ”论文以来，Transformer 架构一直是自然语言处理 (NLP) 领域的基石。它的设计多年来基本没有变化，随着旋转位置编码 (RoPE) 的引入，2022年标志着该领域的重大发展。

SiMBA：基于Mamba的跨图像和多元时间序列的预测模型

deephub

3 月 31 日

阅读 2 分钟

语言模型的发展正在从大型语言模型(LLMs)向小型语言模型(SLMs)转变。llm和slm的核心都是transformers，它是llm和slm的构建模块。虽然transformers通过其注意力网络已经证明了其跨领域的卓越性能，但注意力存在许多问题，包括低归纳偏置和输入序列长度的二次复杂度。

使用MergeKit创建自己的专家混合模型：将多个模型组合成单个MoE

deephub

3 月 29 日

阅读 5 分钟

由于Mixtral的发布，专家混合(MoE)架构在最近几个月变得流行起来。虽然Mixtral和其他MoE架构是从头开始预训练的，但最近出现了另一种创建MoE的方法：Arcee的MergeKit库可以通过集成几个预训练模型来创建moe。这些人通常被称为frankenMoEs或MoErges，以区别于预先训练的MoEs。

如何开始定制你自己的大型语言模型

deephub

3 月 28 日

阅读 4 分钟

2023年的大型语言模型领域经历了许多快速的发展和创新，发展出了更大的模型规模并且获得了更好的性能，那么我们普通用户是否可以定制我们需要的大型语言模型呢？

Chronos: 将时间序列作为一种语言进行学习

deephub

3 月 27 日

阅读 3 分钟

Chronos是一个对时间序列数据的概率模型进行预训练的框架，它将这些值标记为与基于transformer的模型(如T5)一起使用。模型将序列的值缩放和量化到一个固定的词汇表，并在通过高斯过程创建的公共和合成数据集上进行训练。Chronos模型的参数范围从20M到710M不等，在已知数据集上优于传统和深度学习模型，在新数据集上表现...

使用GaLore在本地GPU进行高效的LLM调优

deephub

3 月 25 日

阅读 7 分钟

训练大型语言模型(llm)，即使是那些“只有”70亿个参数的模型，也是一项计算密集型的任务。这种水平的训练需要的资源超出了大多数个人爱好者的能力范围。为了弥补这一差距，出现了低秩适应(LoRA)等参数高效方法，可以在消费级gpu上对大量模型进行微调。

BurstAttention:可对非常长的序列进行高效的分布式注意力计算

deephub

3 月 23 日

阅读 1 分钟

提高llm中注意力机制效率的努力主要集中在两种方法上:优化单设备计算和存储能力，如FlashAttention，以及利用多设备的分布式系统，如RingAttention。

文生图的基石CLIP模型的发展综述

deephub

3 月 22 日

阅读 4 分钟

CLIP的英文全称是Contrastive Language-Image Pre-training，即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型，CLIP的训练数据是文本-图像对：一张图像和它对应的文本描述，这里希望通过对比学习，模型能够学习到文本-图像对的匹配关系。

Moment:又一个开源的时间序列基础模型

deephub

3 月 21 日

阅读 2 分钟

但是由于缺乏大型且整合的公开时间序列数据，所以在时间序列数据上预训练大型模型具有挑战性。为了应对这些挑战，MOMENT团队整理了一个庞大而多样的公共时间序列集合，作者将其称为Time-series Pile。代码地址我们会在文章的最后贴出来。

在16G的GPU上微调Mixtral-8x7B

deephub

3 月 19 日

阅读 4 分钟

Mixtral-8x7B是最好的开源llm之一。但是消费级硬件上对其进行微调也是非常具有挑战性的。因为模型需要96.8 GB内存。而微调则需要更多的内存来存储状态和训练数据。比如说80gb RAM的H100 GPU是不够的。

2024年3月的计算机视觉论文推荐

deephub

3 月 18 日

阅读 5 分钟

从去年开始，针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究，包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。

时间序列预测的零样本学习是未来还是炒作：TimeGPT和TiDE的综合比较

deephub

3 月 17 日

阅读 7 分钟

最近时间序列预测预测领域的最新进展受到了各个领域（包括文本、图像和语音）成功开发基础模型的影响，例如文本（如ChatGPT）、文本到图像（如Midjourney）和文本到语音（如Eleven Labs）。这些模型的广泛采用导致了像TimeGPT[1]这样的模型的出现，这些模型利用了类似于它们在文本、图像和语音方面获得成功的方法和架构。

微调大型语言模型进行命名实体识别

deephub

3 月 17 日

阅读 20 分钟

大型语言模型的目标是理解和生成与人类语言类似的文本。它们经过大规模的训练，能够对输入的文本进行分析，并生成符合语法和语境的回复。这种模型可以用于各种任务，包括问答系统、对话机器人、文本生成、翻译等。

LoRA及其变体概述：LoRA, DoRA, AdaLoRA, Delta-LoRA

deephub

3 月 15 日

阅读 6 分钟

147

LoRA可以说是针对特定任务高效训练大型语言模型的重大突破。它被广泛应用于许多应用中。在本文中，我们将解释LoRA本身的基本概念，然后介绍一些以不同的方式改进LoRA的功能的变体，包括LoRA+、VeRA、LoRA- fa、LoRA-drop、AdaLoRA、DoRA和Delta-LoRA。

MADQN：多代理合作强化学习

deephub

3 月 14 日

阅读 16 分钟

处理单一任务是强化学习的基础，它的目标是在不确定的环境中采取最佳行动，产生相对于任务的最大长期回报。但是在多代理强化学习中，因为存在多个代理，所以代理之间的关系可以是合作的，也可以是对抗，或者两者的混合。多代理的强化学习引入了更多的复杂性，每个代理的状态不仅包括对自身的观察，还包括对其他代理位置...

2024年3月最新的深度学习论文推荐

deephub

3 月 13 日

阅读 3 分钟

学习速率为什么会迁移？本研究试图从理论上解释MuP超参数传递的成功之处。根据其创作者的说法，训练损失的Hessian矩阵的最大特征值不受网络深度或广度的影响。