deephub - SegmentFault 思否

5种常用于LLM的令牌遮蔽技术介绍以及Pytorch的实现

deephub

2024-04-09

阅读 19 分钟

712

令牌掩码Token Masking是一种广泛应用于语言模型分类变体和生成模型训练的策略。BERT语言模型首先使用，并被用于许多变体(RoBERTa, ALBERT, DeBERTa…)。

为什么大型语言模型都在使用 SwiGLU 作为激活函数？

deephub

2024-04-08

阅读 3 分钟

2.1k

如果你一直在关注大型语言模型的架构，你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数，我们本篇文章就来对他进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数，它结合了SWISH和GLU两者的特点。

归一化技术比较研究：Batch Norm, Layer Norm, Group Norm

deephub

2024-04-07

阅读 4 分钟

986

归一化层是深度神经网络体系结构中的关键，在训练过程中确保各层的输入分布一致，这对于高效和稳定的学习至关重要。归一化技术的选择（Batch, Layer, GroupNormalization）会显著影响训练动态和最终的模型性能。每种技术的相对优势并不总是明确的，随着网络体系结构、批处理大小和特定任务的不同而变化。

大模型中常用的注意力机制GQA详解以及Pytorch代码实现

deephub

2024-04-03

阅读 4 分钟

2.3k

分组查询注意力 (Grouped Query Attention) 是一种在大型语言模型中的多查询注意力 (MQA) 和多头注意力 (MHA) 之间进行插值的方法，它的目标是在保持 MQA 速度的同时实现 MHA 的质量。

大语言模型中常用的旋转位置编码RoPE详解：为什么它比绝对或相对位置编码更好?

deephub

2024-04-01

阅读 5 分钟

1.5k

自 2017 年发表“ Attention Is All You Need ”论文以来，Transformer 架构一直是自然语言处理 (NLP) 领域的基石。它的设计多年来基本没有变化，随着旋转位置编码 (RoPE) 的引入，2022年标志着该领域的重大发展。

SiMBA：基于Mamba的跨图像和多元时间序列的预测模型

deephub

2024-03-31

阅读 2 分钟

883

语言模型的发展正在从大型语言模型(LLMs)向小型语言模型(SLMs)转变。llm和slm的核心都是transformers，它是llm和slm的构建模块。虽然transformers通过其注意力网络已经证明了其跨领域的卓越性能，但注意力存在许多问题，包括低归纳偏置和输入序列长度的二次复杂度。

使用MergeKit创建自己的专家混合模型：将多个模型组合成单个MoE

deephub

2024-03-29

阅读 5 分钟

799

由于Mixtral的发布，专家混合(MoE)架构在最近几个月变得流行起来。虽然Mixtral和其他MoE架构是从头开始预训练的，但最近出现了另一种创建MoE的方法：Arcee的MergeKit库可以通过集成几个预训练模型来创建moe。这些人通常被称为frankenMoEs或MoErges，以区别于预先训练的MoEs。

如何开始定制你自己的大型语言模型

deephub

2024-03-28

阅读 4 分钟

623

2023年的大型语言模型领域经历了许多快速的发展和创新，发展出了更大的模型规模并且获得了更好的性能，那么我们普通用户是否可以定制我们需要的大型语言模型呢？

Chronos: 将时间序列作为一种语言进行学习

deephub

2024-03-27

阅读 3 分钟

933

Chronos是一个对时间序列数据的概率模型进行预训练的框架，它将这些值标记为与基于transformer的模型(如T5)一起使用。模型将序列的值缩放和量化到一个固定的词汇表，并在通过高斯过程创建的公共和合成数据集上进行训练。Chronos模型的参数范围从20M到710M不等，在已知数据集上优于传统和深度学习模型，在新数据集上表现...

使用GaLore在本地GPU进行高效的LLM调优

deephub

2024-03-25

阅读 7 分钟

806

训练大型语言模型(llm)，即使是那些“只有”70亿个参数的模型，也是一项计算密集型的任务。这种水平的训练需要的资源超出了大多数个人爱好者的能力范围。为了弥补这一差距，出现了低秩适应(LoRA)等参数高效方法，可以在消费级gpu上对大量模型进行微调。

8个常见的数据可视化错误以及如何避免它们

deephub

2024-03-24

阅读 3 分钟

644

在当今以数据驱动为主导的世界里，清晰且具有洞察力的数据可视化至关重要。然而，在创建数据可视化时很容易犯错误，这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可视化示例，并提供如何避免这些错误的建议。

BurstAttention:可对非常长的序列进行高效的分布式注意力计算

deephub

2024-03-23

阅读 1 分钟

451

提高llm中注意力机制效率的努力主要集中在两种方法上:优化单设备计算和存储能力，如FlashAttention，以及利用多设备的分布式系统，如RingAttention。

文生图的基石CLIP模型的发展综述

deephub

2024-03-22

阅读 4 分钟

1.4k

CLIP的英文全称是Contrastive Language-Image Pre-training，即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型，CLIP的训练数据是文本-图像对：一张图像和它对应的文本描述，这里希望通过对比学习，模型能够学习到文本-图像对的匹配关系。

Moment:又一个开源的时间序列基础模型

deephub

2024-03-21

阅读 2 分钟

668

但是由于缺乏大型且整合的公开时间序列数据，所以在时间序列数据上预训练大型模型具有挑战性。为了应对这些挑战，MOMENT团队整理了一个庞大而多样的公共时间序列集合，作者将其称为Time-series Pile。代码地址我们会在文章的最后贴出来。

多项式朴素贝叶斯分类器

deephub

2024-03-20

阅读 14 分钟

890

与假设高斯分布的高斯朴素贝叶斯分类器相反，多项式朴素贝叶斯分类器依赖于多项分布。通过学习/估计每个类的多项概率来“拟合”多项式分类器-使用平滑技巧来处理空特征。Multinomial Naive Bayes（多项式朴素贝叶斯）是一种常用的文本分类算法，特别适用于处理多类别分类问题，例如文档分类、垃圾邮件检测等。它是朴素贝叶...

在16G的GPU上微调Mixtral-8x7B

deephub

2024-03-19

阅读 4 分钟

513

Mixtral-8x7B是最好的开源llm之一。但是消费级硬件上对其进行微调也是非常具有挑战性的。因为模型需要96.8 GB内存。而微调则需要更多的内存来存储状态和训练数据。比如说80gb RAM的H100 GPU是不够的。

2024年3月的计算机视觉论文推荐

deephub

2024-03-18

阅读 5 分钟

967

从去年开始，针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究，包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。

时间序列预测的零样本学习是未来还是炒作：TimeGPT和TiDE的综合比较

deephub

2024-03-17

阅读 7 分钟

705

最近时间序列预测预测领域的最新进展受到了各个领域（包括文本、图像和语音）成功开发基础模型的影响，例如文本（如ChatGPT）、文本到图像（如Midjourney）和文本到语音（如Eleven Labs）。这些模型的广泛采用导致了像TimeGPT[1]这样的模型的出现，这些模型利用了类似于它们在文本、图像和语音方面获得成功的方法和架构。

微调大型语言模型进行命名实体识别

deephub

2024-03-17

阅读 20 分钟

1.3k

大型语言模型的目标是理解和生成与人类语言类似的文本。它们经过大规模的训练，能够对输入的文本进行分析，并生成符合语法和语境的回复。这种模型可以用于各种任务，包括问答系统、对话机器人、文本生成、翻译等。

LoRA及其变体概述：LoRA, DoRA, AdaLoRA, Delta-LoRA

deephub

2024-03-15

阅读 6 分钟

1.4k

LoRA可以说是针对特定任务高效训练大型语言模型的重大突破。它被广泛应用于许多应用中。在本文中，我们将解释LoRA本身的基本概念，然后介绍一些以不同的方式改进LoRA的功能的变体，包括LoRA+、VeRA、LoRA- fa、LoRA-drop、AdaLoRA、DoRA和Delta-LoRA。

MADQN：多代理合作强化学习

deephub

2024-03-14

阅读 16 分钟

941

处理单一任务是强化学习的基础，它的目标是在不确定的环境中采取最佳行动，产生相对于任务的最大长期回报。但是在多代理强化学习中，因为存在多个代理，所以代理之间的关系可以是合作的，也可以是对抗，或者两者的混合。多代理的强化学习引入了更多的复杂性，每个代理的状态不仅包括对自身的观察，还包括对其他代理位置...

2024年3月最新的深度学习论文推荐

deephub

2024-03-13

阅读 3 分钟

1.2k

学习速率为什么会迁移？本研究试图从理论上解释MuP超参数传递的成功之处。根据其创作者的说法，训练损失的Hessian矩阵的最大特征值不受网络深度或广度的影响。

傅里叶变换算法和Python代码实现

deephub

2024-03-12

阅读 6 分钟

723

傅立叶变换是物理学家、数学家、工程师和计算机科学家常用的最有用的工具之一。本篇文章我们将使用Python来实现一个连续函数的傅立叶变换。我们使用以下定义来表示傅立叶变换及其逆变换。设 f: ℝ → ℂ 是一个既可积又可平方积分的复值函数。那么它的傅立叶变换，记为 f̂，是由以下复值函数给出：同样地，对于一个复值函数...

从16-bit 到 1.58-bit ：大模型内存效率和准确性之间的最佳权衡

deephub

2024-03-11

阅读 6 分钟

3.3k

通过量化可以减少大型语言模型的大小，但是量化是不准确的，因为它在过程中丢失了信息。通常较大的llm可以在精度损失很小的情况下量化到较低的精度，而较小的llm则很难精确量化。

Nomic Embed：能够复现的SOTA开源嵌入模型

deephub

2024-03-10

阅读 3 分钟

1.7k

Nomic-embed-text是2月份刚发布的，并且是一个完全开源的英文文本嵌入模型，上下文长度为8192。它在处理短文和长文本任务方面都超越了现有的模型，如OpenAI的Ada-002和text-embedding-3-small。该模型有137M个参数在现在可以算是非常小的模型了。

使用Tokeniser估算GPT和LLM服务的查询成本

deephub

2024-03-09

阅读 2 分钟

592

将LLM集成到项目所花费的成本主要是我们通过API获取LLM返回结果的成本，而这些成本通常是根据处理的令牌数量计算的。我们如何预估我们的令牌数量呢？Tokeniser包可以有效地计算文本输入中的令牌来估算这些成本。本文将介绍如何使用Tokeniser有效地预测和管理费用。

StarCoder 2：GitHub Copilot本地开源LLM替代方案

deephub

2024-03-08

阅读 5 分钟

1.4k

GitHub CoPilot拥有超过130万付费用户，部署在5万多个组织中，是世界上部署最广泛的人工智能开发工具。使用LLM进行编程辅助工作不仅提高了生产力，而且正在永久性地改变数字原住民开发软件的方式，我也是它的付费用户之一。

RNN又行了！DeepMind新发布的Griffin可以与同级别的LLM性能相当

deephub

2024-03-06

阅读 4 分钟

919

Hawk和Griffin是DeepMind推出的新型循环神经网络（RNNs），2月刚刚发布在arxiv上。Hawk通过使用门控线性递归（gated linear recurrences）超越了Mamba的性能，而Griffin则是一种混合型模型，结合了门控线性递归和局部注意力（local attention），与Llama-2的性能相当，但使用的训练数据明显较少。Griffin在处理比训练时...

使用纹理对比度检测检测AI生成的图像

deephub

2024-03-05

阅读 3 分钟

702

大多数用于检测人工智能生成图像的深度学习方法取决于生成图像的方法，或者取决于图像的性质/语义，其中模型只能检测人工智能生成的人、脸、汽车等特定对象。

Vision Transformers的注意力层概念解释和代码实现

deephub

2024-03-04

阅读 10 分钟

1.1k

2017年推出《Attention is All You Need》以来，transformers 已经成为自然语言处理(NLP)的最新技术。2021年，《An Image is Worth 16x16 Words》，成功地将transformers 用于计算机视觉任务。从那时起，许多基于transformers的计算机视觉体系结构被提出。