使用BatchNorm替代LayerNorm可以减少Vision Transformer训练时间和推理时间

8 月 12 日
阅读 18 分钟
530
以Vision Transformer (ViT)的发现为先导的基于transformer的架构在计算机视觉领域引发了一场革命。对于广泛的应用,ViT及其各种变体已经有效地挑战了卷积神经网络(CNN)作为最先进架构的地位。尽管取得了一些成功,但是ViT需要更长的训练时间,并且对于小型到中型输入数据大小,推理速度较慢。因此研究更快训练和推理Vision ...

Skeleton Recall Loss 分割领域的新突破:极大的减少了资源消耗,还能提高性能

8 月 11 日
阅读 5 分钟
459
精确分割在当今众多领域都是一项关键需求比如说自动驾驶汽车的训练、医学图像识别系统,以及通过卫星图像进行监测。在许多其他领域,当感兴趣的对象微小但至关重要时,例如研究血管流动、手术规划、检测建筑结构中的裂缝或优化路线规划,需要更高的精度。此前已经做了大量工作来解决这种具有挑战性的分割问题。

多元时间序列分析统计学基础:基本概念、VMA、VAR和VARMA

8 月 10 日
阅读 9 分钟
769
多元时间序列是一个在大学课程中经常未被提及的话题。但是现实世界的数据通常具有多个维度,所以需要多元时间序列分析技术。在这文章我们将通过可视化和Python实现来学习多元时间序列概念。这里假设读者已经了解单变量时间序列分析。

模型量化技术综述:揭示大型语言模型压缩的前沿技术

8 月 3 日
阅读 12 分钟
657
大型语言模型(LLMs)通常因为体积过大而无法在消费级硬件上运行。这些模型可能包含数十亿个参数,通常需要配备大量显存的GPU来加速推理过程。

深入浅出:可视化理解揭示决策树与梯度提升背后的数学原理

8 月 2 日
阅读 27 分钟
498
决策树是一种非参数的监督学习算法,可用于分类和回归。它使用类似树的结构来表示决策及其潜在结果。决策树易于理解和解释,并且可以轻松地进行可视化。但是当决策树模型变得过于复杂时,它不能很好地从训练数据中泛化,会导致过拟合。

Adam-mini:内存占用减半,性能更优的深度学习优化器

8 月 1 日
阅读 3 分钟
309
Adam(W)目前为训练LLM的主流优化器,但其内存开销较大,这是因为Adam优化器需要存储一阶动量m和二阶动量v,总内存占用至少是模型大小的两倍,这对现有的高端显卡也是一种负担。论文提出一种新的优化器Adam-mini,在不牺牲性能的情况下减少Adam优化器的内存占用。

深度学习中常用损失函数介绍

7 月 28 日
阅读 5 分钟
1.1k
选择正确的损失函数对于训练机器学习模型非常重要。不同的损失函数适用于不同类型的问题。本文将总结一些常见的损失函数,并附有易于理解的解释、用法和示例

大语言模型的Scaling Law:如何随着模型大小、训练数据和计算资源的增加而扩展

7 月 27 日
阅读 5 分钟
1.4k
人工智能的世界正在经历一场革命,大型语言模型正处于这场革命的前沿,它们似乎每天都在变得更加强大。从BERT到GPT-3再到PaLM,这些AI巨头正在推动自然语言处理可能性的边界。但你有没有想过是什么推动了它们能力的飞速提升?

精简模型,提升效能:线性回归中的特征选择技巧

7 月 26 日
阅读 14 分钟
533
在本文中,我们将探讨各种特征选择方法和技术,用以在保持模型评分可接受的情况下减少特征数量。通过减少噪声和冗余信息,模型可以更快地处理,并减少复杂性。

贝叶斯分析与决策理论:用于确定分类问题决策点的应用

7 月 25 日
阅读 6 分钟
265
在分类问题中,一个常见的难题是决定输出为数字时各类别之间的切分点。例如,一个神经网络的输出是介于0到1之间的数字,比如0.7,这是对应于正类(1)还是负类(0)?常识告诉我们使用0.5作为决策标记,但如果低估正类的风险较高怎么办?或者如果类别不平衡呢?

大语言模型对时间序列预测真的有用吗?

7 月 24 日
阅读 3 分钟
373
我们已经看到了语言模型的巨大进步,但时间序列任务,如预测呢?今天我们推荐一篇论文,对现有的语言模型和时间序列做了深入的研究。将探讨了是否可以从大型语言模型(LLMs)中获益于时间序列(TS)预测。

用PyTorch从零开始编写DeepSeek-V2

7 月 23 日
阅读 8 分钟
583
DeepSeek-V2是一个强大的开源混合专家(MoE)语言模型,通过创新的Transformer架构实现了经济高效的训练和推理。该模型总共拥有2360亿参数,其中每个令牌激活21亿参数,支持最大128K令牌的上下文长度。

VQ-VAE:矢量量化变分自编码器,离散化特征学习模型

7 月 22 日
阅读 5 分钟
525
VQ-VAE 是变分自编码器(VAE)的一种改进。这些模型可以用来学习有效的表示。本文将深入研究 VQ-VAE 之前,不过,在这之前我们先讨论一些概率基础和 VAE 架构。

多任务高斯过程数学原理和Pytorch实现示例

7 月 20 日
阅读 9 分钟
590
高斯过程其在回归任务中的应用我们都很熟悉了,但是我们一般介绍的都是针对单个任务的,也就是单个输出。本文我们将讨论扩展到多任务gp,强调它们的好处和实际实现。

谷歌的时间序列预测的基础模型TimesFM详解和对比测试

7 月 18 日
阅读 12 分钟
1.6k
TimesFM是一个为时间序列数据量身定制的大型预训练模型——一个无需大量再训练就能提供准确预测的模型。TimesFM有2亿参数,并在1000亿真实世界时间点上进行了训练。可以允许额外的协变量作为特征。

Pytorch的编译新特性TorchDynamo的工作原理和使用示例

7 月 17 日
阅读 26 分钟
272
在深度学习中,优化模型性能至关重要,特别是对于需要快速执行和实时推断的应用。而PyTorch在平衡动态图执行与高性能方面常常面临挑战。传统的PyTorch优化技术在处理动态计算图时效果有限,导致训练时间延长和模型性能不佳。TorchDynamo是一种为PyTorch设计的即时(JIT)编译器,通过在运行时拦截Python代码、优化它,并...

注意力机制中三种掩码技术详解和Pytorch实现

7 月 16 日
阅读 8 分钟
923
注意力机制是许多最先进神经网络架构的基本组成部分,比如Transformer模型。注意力机制中的一个关键方面是掩码,它有助于控制信息流,并确保模型适当地处理序列。

Transformer中高级位置编码的介绍和比较:Linear Rope、NTK、YaRN、CoPE

7 月 15 日
阅读 9 分钟
672
在处理诸如文本之类的序列时,排序信息显然是至关重要的。为了结合排序信息而不是将序列视为集合,对位置信息进行编码是至关重要的。位置编码通过为每个位置分配嵌入向量并将其添加到相应的标记表示来实现这一点。绝对和相对位置编码是最常见的两种位置编码方式,但是本文将要比较更高级的位置编码方法:

Doping:使用精心设计的合成数据测试和评估异常检测器的技术

7 月 14 日
阅读 7 分钟
1.4k
在这篇文章中,我们将探讨测试和评估异常检测器的问题(这是一个众所周知的难题),并提出了一种解决方案被称为“Doping”方法。使用Doping方法,真实数据行会被(通常是)随机修改,修改的方式是确保它们在某些方面可能成为异常值,这时应该被异常检测器检测到。然后通过评估检测器检测Doping记录的效果来评估这些检测器。

持续学习中避免灾难性遗忘的Elastic Weight Consolidation Loss数学原理及代码实现

7 月 13 日
阅读 9 分钟
690
训练人工神经网络最重要的挑战之一是灾难性遗忘。神经网络的灾难性遗忘(catastrophic forgetting)是指在神经网络学习新任务时,可能会忘记之前学习的任务。这种现象特别常见于传统的反向传播算法和深度学习模型中。主要原因是网络在学习新数据时,会调整权重以适应新任务,这可能会导致之前学到的知识被覆盖或忘记,尤...

Lookback Lens:用注意力图检测和减轻llm的幻觉

7 月 12 日
阅读 3 分钟
270
在总结文章或回答给定段落的问题时,大语言模型可能会产生幻觉,并会根据给定的上下文回答不准确或未经证实的细节,这也被称为情境幻觉。为了解决这个问题,这篇论文的作者提出了一个简单的幻觉检测模型,其输入特征由上下文的注意力权重与新生成的令牌(每个注意头)的比例给出。它被称为回看或基于回看比率的检测器。

LLM代理应用实战:构建Plotly数据可视化代理

7 月 11 日
阅读 10 分钟
293
如果你尝试过像ChatGPT这样的LLM,就会知道它们几乎可以为任何语言或包生成代码。但是仅仅依靠LLM是有局限的。对于数据可视化的问题我们需要提供一下的内容

统计学入门:时间序列分析基础知识详解

7 月 10 日
阅读 10 分钟
888
时间序列分析中包含了许多复杂的数学公式,它们往往难以留存于记忆之中。为了更好地掌握这些内容,本文将整理并总结时间序列分析中的一些核心概念,如自协方差、自相关和平稳性等,并通过Python实现和图形化展示这些概念,使其更加直观易懂。希望通过这篇文章帮助大家更清楚地理解时间序列分析的基础框架和关键点。

11个提升Python列表编码效率的高级技巧

7 月 9 日
阅读 2 分钟
222
Python中关于列表的一些很酷的技巧1、collections.dequedeque(双端队列)非常适合从列表的两端快速添加和删除项目。2、使用带有if-else条件的列表推导式使用if-else的列表推导式可以以简洁的方式创建具有条件逻辑的列表。3、itertools.product {代码...} 从两个或多个列表中生成所有可能的项目组合。4、itertools.groupby...

LLM推理引擎怎么选?TensorRT vs vLLM vs LMDeploy vs MLC-LLM

7 月 8 日
阅读 7 分钟
1.2k
LLM擅长文本生成应用程序,如聊天和代码完成模型,能够高度理解和流畅。但是它们的大尺寸也给推理带来了挑战。有很多个框架和包可以优化LLM推理和服务,所以在本文中我将整理一些常用的推理引擎并进行比较。

PyTorch中的多进程并行处理

7 月 7 日
阅读 5 分钟
622
PyTorch是一个流行的深度学习框架,一般情况下使用单个GPU进行计算时是十分方便的。但是当涉及到处理大规模数据和并行处理时,需要利用多个GPU。这时PyTorch就显得不那么方便,所以这篇文章我们将介绍如何利用torch.multiprocessing模块,在PyTorch中实现高效的多进程处理。

2024年6月后2周重要的大语言模型论文总结:LLM进展、微调、推理和对齐

7 月 6 日
阅读 11 分钟
1.2k
本文总结了2024年6月后两周发表的一些最重要的大语言模型论文。这些论文涵盖了塑造下一代语言模型的各种主题,从模型优化和缩放到推理、基准测试和增强性能。

RouteLLM:高效LLM路由框架,可以动态选择优化成本与响应质量的平衡

7 月 5 日
阅读 4 分钟
516
该论文提出了一个新的框架,用于在强模型和弱模型之间进行查询路由选择。通过学习用户偏好数据,预测强模型获胜的概率,并根据成本阈值来决定使用哪种模型处理查询 。该研究主要应用于大规模语言模型(LLMs)的实际部署中,通过智能路由在保证响应质量的前提下显著降低成本。

字符串相似度算法完全指南:编辑、令牌与序列三类算法的全面解析与深入分析

7 月 4 日
阅读 9 分钟
936
在自然语言处理领域,人们经常需要比较字符串,这些字符串可能是单词、句子、段落甚至是整个文档。如何快速判断两个单词或句子是否相似,或者相似度是好还是差。这类似于我们使用手机打错一个词,但手机会建议正确的词来修正它,那么这种如何判断字符串相似度呢?本文将详细介绍这个问题。

使用 PyTorch 创建的多步时间序列预测的 Encoder-Decoder 模型

7 月 3 日
阅读 10 分钟
467
Encoder-decoder 模型在序列到序列的自然语言处理任务(如语言翻译等)中提供了最先进的结果。多步时间序列预测也可以被视为一个 seq2seq 任务,可以使用 encoder-decoder 模型来处理。本文提供了一个用于解决 Kaggle 时间序列预测任务的 encoder-decoder 模型,并介绍了获得前 10% 结果所涉及的步骤。