通过f-string编写简洁高效的Python格式化输出代码

6 月 2 日
阅读 3 分钟
813
Python 3.6中引入的f-string是Python中最常用的特征之一,它可以让我们编写更干净、更高效和更易于维护的代码,我们今天就由浅入深来详细介绍使用它的一些技巧。

YOLOv10的改进、部署和微调训练总结

6 月 1 日
阅读 7 分钟
3.3k
YOLO模型因其在计算成本和检测性能之间的平衡而在实时目标检测中很受欢迎。前几天YOLOv10也刚刚发布了。我们这篇文章就来看看YOLOv10有哪些改进,如何部署,以及微调。

长序列中Transformers的高级注意力机制总结

5 月 31 日
阅读 4 分钟
687
在处理长序列时,Transformers面临着注意力分散和噪音增加等挑战。随着序列长度的增长,每个词元必须与更多词元竞争注意力得分,这会导致注意力分数被稀释。这种稀释可能导致不那么集中和相关的上下文表示,特别是影响彼此距离较远的词元。

通过强化学习策略进行特征选择

5 月 30 日
阅读 5 分钟
677
在本文中,我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习,尤其是马尔可夫决策过程。它是数据科学领域的一种非常新的方法,尤其适用于特征选择。然后介绍它的实现以及如何安装和使用python库(FSRLearning)。最后再使用一个简单的示例来演示这一过程。

微调真的能让LLM学到新东西吗:引入新知识可能让模型产生更多的幻觉

5 月 29 日
阅读 3 分钟
489
大型语言模型(llm)是在巨大的文本语料库上训练的,在那里他们获得了大量的事实知识。这些知识嵌入到它们的参数中,然后可以在需要时使用。这些模型的知识在培训结束时被“具体化”。在预训练结束时,模型实际上停止学习。

SUPRA:无须额外训练,将Transformer变为高效RNN,推理速度倍增

5 月 27 日
阅读 4 分钟
554
Transformers 已经确立了自己作为首要模型架构的地位,特别是因为它们在各种任务中的出色表现。但是Transformers 的内存密集型性质和随着词元数量的指数扩展推理成本带来了重大挑战。为了解决这些问题,论文“Linearizing Large Language Models”引入了一种创新的方法,称为UPtraining for Recurrent Attention (SUPRA)。...

2024年5月大语言模型论文推荐:模型优化、缩放到推理、基准测试和增强性能

5 月 26 日
阅读 5 分钟
832
前一篇文章总结了关于计算机视觉方面的论文,这篇文章将要总结了2024年5月发表的一些最重要的大语言模型的论文。这些论文涵盖了塑造下一代语言模型的各种主题,从模型优化和缩放到推理、基准测试和增强性能。

2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题

5 月 25 日
阅读 4 分钟
2.3k
我们今天总结下2024年5月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展,包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题。

使用FP8加速PyTorch训练的两种方法总结

5 月 24 日
阅读 10 分钟
982
在PyTorch中,FP8(8-bit 浮点数)是一个较新的数据类型,用于实现高效的神经网络训练和推理。它主要被设计来降低模型运行时的内存占用,并加快计算速度,同时尽量保持训练和推理的准确性。虽然PyTorch官方在标准发布中尚未全面支持FP8,但是在2.2版本中PyTorch已经包含了对FP8的“有限支持”并且出现了2个新的变量类型,

MambaOut:状态空间模型并不适合图像的分类任务

5 月 23 日
阅读 3 分钟
706
该论文探讨了Mamba架构(包含状态空间模型SSM)是否有必要用于视觉任务,如图像分类、目标检测和语义分割。通过实验证实了了Mamba在视觉识别任务中的效果,认为其不如传统的卷积和注意力模型。

整合LlamaIndex与LangChain构建高级的查询处理系统

5 月 22 日
阅读 6 分钟
717
构建大型语言模型应用程序可能会颇具挑战,尤其是当我们在不同的框架(如Langchain和LlamaIndex)之间进行选择时。LlamaIndex在智能搜索和数据检索方面的性能令人瞩目,而LangChain则作为一个更加通用的应用程序框架,提供了更好的与各种平台的兼容性。

深入解析xLSTM:LSTM架构的演进及PyTorch代码实现详解

5 月 20 日
阅读 15 分钟
2k
xLSTM的新闻大家可能前几天都已经看过了,原作者提出更强的xLSTM,可以将LSTM扩展到数十亿参数规模,我们今天就来将其与原始的lstm进行一个详细的对比,然后再使用Pytorch实现一个简单的xLSTM。

DeepSparse: 通过剪枝和稀疏预训练,在不损失精度的情况下减少70%的模型大小,提升三倍速度

5 月 19 日
阅读 4 分钟
533
这篇论文提出了一种高稀疏性基础大型语言模型(LLMs)的新方法,通过有效的预训练和部署,实现了模型在保持高准确度的同时,显著提升了处理速度。

扩散模型的多元化应用:药物发现、文本生成、时间序列预测等

5 月 18 日
阅读 4 分钟
378
AlphaFold3 是 DeepMind 开发的一款蛋白质结构预测软件,它在AlphaFold2的基础上进行了改进。其中最主要的一个改进就是引入了扩散模型,这使得扩散模型不仅仅可以应用于文生图,其实扩散模型早已经在各个领域中都又所发展,今天我们就来研究一下扩散模型的多元化应用。

图神经网络入门示例:使用PyTorch Geometric 进行节点分类

5 月 17 日
阅读 8 分钟
1.1k
基于图的神经网络是强大的模型,可以学习网络中的复杂模式。在本文中,我们将介绍如何为同构图数据构造PyTorch Data对象,然后训练不同类型的神经网络来预测节点所属的类。这种类型的预测问题通常被称为节点分类。

ATFNet:长时间序列预测的自适应时频集成网络

5 月 16 日
阅读 3 分钟
586
ATFNet是一个深度学习模型,它结合了时间域和频域模块来捕获时间序列数据中的依赖关系。引入了一种新的加权机制来调整周期性的权重,增强了离散傅立叶变换,并包括一个复杂关系识别的注意力机制,在长期时间序列预测中优于当前方法(每个模型都这么说)。这是4月发布在arxiv上的论文,还包含了源代码。

时间序列预测:探索性数据分析和特征工程的实用指南

5 月 15 日
阅读 12 分钟
1.1k
时间序列分析是数据科学和机器学习领域最广泛的主题之一:无论是预测金融事件、能源消耗、产品销售还是股票市场趋势,这一领域一直是企业非常感兴趣的领域。

Transformers 加速的一些常用技巧

5 月 13 日
阅读 5 分钟
929
Transformers 是一个强大的架构,但模型因其采用的自注意力机制,虽然能够有效地处理序列数据并捕获长距离依赖关系,但同时也容易导致在训练过程中出现OOM(Out of Memory,内存不足)或者达到GPU的运行时限制。

You Only Cache Once:YOCO 基于Decoder-Decoder 的一个新的大语言模型架构

5 月 12 日
阅读 5 分钟
414
以前的模型都是通过缓存先前计算的键/值向量,可以在当前生成步骤中重用它们。键值(KV)缓存避免了对每个词元再次编码的过程,这样可以大大提高了推理速度。

图机器学习入门:基本概念介绍

5 月 11 日
阅读 6 分钟
429
图机器学习(Graph Machine Learning,简称Graph ML)是机器学习的一个分支,专注于利用图形结构的数据。在图形结构中,数据以图的形式表示,其中的节点(或顶点)表示实体,边(或链接)表示实体之间的关系。

使用PyTorch实现L1, L2和Elastic Net正则化

5 月 10 日
阅读 8 分钟
530
在机器学习中,L1正则化、L2正则化和Elastic Net正则化是用来避免过拟合的技术,它们通过在损失函数中添加一个惩罚项来实现。正则化介绍L1 正则化(Lasso回归):L1 正则化通过向损失函数添加参数的绝对值的和来实施惩罚,公式可以表示为:其中 L0 是原始的损失函数,λ 是正则化强度,wi是模型参数。L1 正则化的特点是它...

论文推荐:用多词元预测法提高模型效率与速度

5 月 9 日
阅读 3 分钟
275
这是4月发表的论文《Better & Faster Large Language Models via Multi-token Prediction》,作者们提出了一种创新的多词元预测方法,该方法在提高大型语言模型(LLMs)的样本效率和推理速度方面展示了显著优势。本文将对该论文进行详细的推荐和分析,探讨其理论贡献、实验设计以及对未来研究的启示。

号称能打败MLP的KAN到底行不行?数学核心原理全面解析

5 月 8 日
阅读 5 分钟
1.2k
前几天火爆的Kolmogorov-Arnold Networks是具有开创性,目前整个人工智能社区都只关注一件事LLM。我们很少看到有挑战人工智能基本原理的论文了,但这篇论文给了我们新的方向。

循环编码:时间序列中周期性特征的一种常用编码方式

5 月 7 日
阅读 4 分钟
476
在深度学习或神经网络中,"循环编码"(Cyclical Encoding)是一种编码技术,其特点是能够捕捉输入或特征中的周期性或循环模式。这种编码方法常用于处理具有周期性行为的任务,比如时间序列预测或理解展示周期性特征的序列。

LLM2Vec介绍和将Llama 3转换为嵌入模型代码示例

5 月 5 日
阅读 5 分钟
1.1k
使用与LLM相同领域的训练或微调的嵌入模型可以显著改进RAG系统。然而,寻找或训练这样的嵌入模型往往是一项困难的任务,因为领域内的数据通常是稀缺的。

BiTCN:基于卷积网络的多元时间序列预测

5 月 4 日
阅读 6 分钟
1.2k
基于mlp的模型,如N-HiTS, TiDE和TSMixer,可以在保持快速训练的同时获得非常好的预测性能。基于Transformer的模型,如PatchTST和ittransformer也取得了很好的性能,但需要更多的内存和时间来训练。

整合文本和知识图谱嵌入提升RAG的性能

5 月 3 日
阅读 9 分钟
402
文本嵌入是单词或短语的数字表示,可以有效地捕捉它们的含义和上下文。可以将它们视为单词的唯一标识符——捕获它们所代表的单词的含义的简洁向量。这些嵌入使计算机能够增强对文本的理解和处理,使它们能够在各种NLP任务中脱颖而出,例如文本分类、情感分析和机器翻译。

Gradformer: 通过图结构归纳偏差提升自注意力机制的图Transformer

5 月 2 日
阅读 3 分钟
473
这是4月刚刚发布在arxiv上的论文,介绍了一种名为“Gradformer”的新型图Transformer,它在自注意力机制中引入了指数衰减掩码。以下是主要创新点:

10个使用NumPy就可以进行的图像处理步骤

5 月 1 日
阅读 7 分钟
522
图像处理是一种数学计算。数字图像由称为像素的彩色小点组成。每个像素由红、绿、蓝(RGB)三个独立的颜色组成。每个像素中的主色由每个RGB分量的数值决定。

贝叶斯推理导论:如何在‘任何试验之前绝对一无所知’的情况下计算概率

4 月 30 日
阅读 15 分钟
426
1654年,帕斯卡尔和费马共同解决了“点问题”, 创造了早期的直接概率推理理论。三十年后,雅各布·伯努利将概率理论扩展到了归纳推理。伯努利指出,在现实中,为了预先枚举所有可能性来确定“哪一种可能性更大”是徒劳的。