深度学习中的学习率调度:循环学习率、SGDR、1cycle 等方法介绍及实践策略研究

10 月 28 日
阅读 8 分钟
118
深度学习实践者都知道,在训练神经网络时,正确设置学习率是使模型达到良好性能的关键因素之一。学习率通常会在训练过程中根据某种调度策略进行动态调整。调度策略的选择对训练质量也有很大影响。

过采样与欠采样技术原理图解:基于二维数据的常见方法效果对比

10 月 27 日
阅读 6 分钟
85
在现实场景中,收集一个每个类别样本数量完全相同的数据集是十分困难的。实际数据往往是不平衡的,这对于分类模型的训练可能会造成问题。当模型在这样一个不平衡数据集上训练时,由于某个类别的样本数量远多于其他类别,模型通常会更擅长预测样本量较大的类别,而在预测小类别时表现不佳。为了缓解这一问题,我们可以使用过采...

LLM-Mixer: 融合多尺度时间序列分解与预训练模型,可以精准捕捉短期波动与长期趋势

10 月 26 日
阅读 4 分钟
75
近年来,大型语言模型(Large Language Models,LLMs)在自然语言处理领域取得了显著进展。受此启发,研究人员开始探索将LLMs应用于时间序列预测任务的可能性。由于时间序列数据与文本数据在特征上存在显著差异,直接将LLMs应用于时间序列预测仍面临诸多挑战。

RAPTOR:多模型融合+层次结构 = 检索性能提升20%,结果还更稳健

10 月 25 日
阅读 9 分钟
101
在现代信息检索领域,单一检索模型的局限性日益显现。本文深入探讨如何通过多模型集成技术提升检索系统的性能,并详细介绍RAPTOR(Recursive Abstractive Processing for Tree-Organized Retrieval)框架的实现机制。这一研究建立在之前探讨的RAG Fusion技术基础之上,旨在提供更全面的信息检索解决方案。

梯度累积的隐藏陷阱:Transformer库中梯度累积机制的缺陷与修正

10 月 24 日
阅读 5 分钟
88
在本地环境下对大规模语言模型(LLMs)进行微调时,由于GPU显存限制,采用大批量训练通常难以实现。为解决此问题,一般普遍会采用梯度累积技术来模拟较大的批量规模。该方法不同于传统的每批次更新模型权重的方式,而是通过在多个小批量上累积梯度,在达到预设的累积次数后才执行权重更新。这种方法有效地实现了大批量训...

TimeDART:基于扩散自回归Transformer 的自监督时间序列预测方法

10 月 23 日
阅读 10 分钟
118
近年来,随着机器学习技术的进步,深度神经网络已经成为解决时间序列预测问题的主流方法。这反映了学术界和工业界在利用先进技术处理序列数据复杂性方面的持续努力。

11种经典时间序列预测方法:理论、Python实现与应用

10 月 22 日
阅读 10 分钟
908
时间序列分析和预测在现代数据科学中扮演着关键角色,广泛应用于金融、经济、气象学和工程等领域。本文将总结11种经典的时间序列预测方法,并提供它们在Python中的实现示例。

MoH:融合混合专家机制的高效多头注意力模型及其在视觉语言任务中的应用

10 月 21 日
阅读 5 分钟
190
在深度学习领域,多头注意力机制一直是Transformer模型的核心组成部分,在自然语言处理和计算机视觉任务中取得了巨大成功。然而,研究表明并非所有的注意力头都具有同等重要性,许多注意力头可以在不影响模型精度的情况下被剪枝。基于这一洞察,这篇论文提出了一种名为混合头注意力(Mixture-of-Head attention, MoH)的新架构,...

机器学习中空间和时间自相关的分析:从理论基础到实践应用

10 月 20 日
阅读 6 分钟
217
空间和时间自相关是数据分析中的两个基本概念,它们揭示了现象在空间和时间维度上的相互依赖关系。这些概念在各个领域都有广泛应用,从环境科学到城市规划,从流行病学到经济学。本文将探讨这些概念的理论基础,并通过一个实际的野火风险预测案例来展示它们的应用。

特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计

10 月 19 日
阅读 7 分钟
145
在机器学习领域,特征工程是提升模型性能的关键步骤。它涉及选择、创建和转换输入变量,以构建最能代表底层问题结构的特征集。然而,在许多实际应用中,仅仅依靠统计相关性进行特征选择可能导致误导性的结果,特别是在我们需要理解因果关系的场景中。

lintsampler:高效从任意概率分布生成随机样本的新方法

10 月 18 日
阅读 3 分钟
83
在实际应用中,我们经常需要从给定的概率密度函数(PDF)中抽取随机样本。这种需求在多个领域都很常见,例如:估计统计量进行蒙特卡洛模拟生成粒子系统用于物理仿真对于标准概率分布,如均匀分布或高斯分布(正态分布), {代码...} 和 {代码...} 生态系统提供了现成的解决方案。通过 {代码...} 或 {代码...} 模块,我们...

基于OpenFOAM和Python的流场动态模态分解:从数据提取到POD-DMD分析

10 月 17 日
阅读 7 分钟
197
本文探讨了Python脚本与动态模态分解(DMD)的结合应用。我们将利用Python对从OpenFOAM模拟中提取的二维切片数据进行DMD计算。这种方法能够有效地提取隐藏的流动模式,深化对流体动力学现象的理解。

如果你的PyTorch优化器效果欠佳,试试这4种深度学习中的高级优化技术吧

10 月 16 日
阅读 7 分钟
88
被广泛应用,但它们并非在所有情况下都是最优选择。本文将介绍四种高级优化技术,这些技术在某些任务中可能优于传统方法,特别是在面对复杂优化问题时。

信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用

10 月 15 日
阅读 6 分钟
221
在信息论、机器学习和统计学领域中,KL散度(Kullback-Leibler散度)作为一个基础概念,在量化概率分布差异方面发挥着关键作用。它常用于衡量当一个概率分布用于近似另一个概率分布时的信息损失。本文将深入探讨KL散度及其他相关的重要散度概念。

数据准备指南:10种基础特征工程方法的实战教程

10 月 14 日
阅读 9 分钟
142
在数据分析和机器学习领域,从原始数据中提取有价值的信息是一个关键步骤。这个过程不仅有助于辅助决策,还能预测未来趋势。为了实现这一目标,特征工程技术显得尤为重要。

三种Transformer模型中的注意力机制介绍及Pytorch实现:从自注意力到因果自注意力

10 月 13 日
阅读 16 分钟
764
本文深入探讨Transformer模型中三种关键的注意力机制:自注意力、交叉注意力和因果自注意力。这些机制是GPT-4、Llama等大型语言模型(LLMs)的核心组件。通过理解这些注意力机制,我们可以更好地把握这些模型的工作原理和应用潜力。

多代理强化学习综述:原理、算法与挑战

10 月 12 日
阅读 7 分钟
140
多代理强化学习(Multi-Agent Reinforcement Learning, MARL)是强化学习的一个重要分支,它将传统的单代理强化学习概念扩展到多代理环境中。在MARL中,多个代理通过与环境和其他代理的交互来学习最优策略,以在协作或竞争场景中最大化累积奖励。

边缘检测评估方法:FOM、RMSE、PSNR和SSIM对比实验和理论研究

10 月 11 日
阅读 9 分钟
229
模型将每个像素分类为陆地或海洋(分割掩码)。随后,海岸线被定义为分类发生变化的像素位置(边缘图)。边缘检测可以通过提取图像分割模型输出的边界来实现。

稀疏促进动态模态分解(SPDMD)详细介绍以及应用

10 月 10 日
阅读 11 分钟
138
在数据驱动分析领域,从复杂流体流动中提取有意义的模式一直是一个重大挑战。稀疏促进动态模态分解(Sparsity Promoting Dynamic Mode Decomposition, SPDMD)提供了一种有效方法,能够揭示最主要的特征,同时去除冗余信息,从而实现更高效和更具洞察力的分解。这种方法将动态模态分解(Dynamic Mode Decomposition, DMD...

贝叶斯线性回归:概率与预测建模的融合

10 月 9 日
阅读 15 分钟
174
在古希腊时期,地心说模型是主导宇宙观,将地球置于宇宙中心。希腊天文学家,如托勒密,观察到行星呈现看似不规则的运动,有时甚至会逆行。为解释这一现象,他们引入了本轮概念——小圆在大圆(均轮)上运动——来表示行星轨道。

图像数据增强库综述:10个强大图像增强工具对比与分析

10 月 8 日
阅读 5 分钟
267
在深度学习和计算机视觉领域,数据增强已成为提高模型性能和泛化能力的关键技术。本文旨在全面介绍当前广泛使用的图像数据增强库,分析其特点和适用场景,以辅助研究人员和开发者选择最适合其需求的工具。

FredNormer: 非平稳时间序列预测的频域正则化方法

10 月 7 日
阅读 5 分钟
183
时间序列预测是一个具有挑战性的任务,尤其是在处理非平稳数据时。现有的基于正则化的方法虽然在解决分布偏移问题上取得了一定成功但仍存在局限性。这些方法主要在时间域进行操作,可能无法充分捕捉在频域中更明显的动态模式,从而导致次优的结果。

模型无关的局部解释(LIME)技术原理解析及多领域应用实践

10 月 6 日
阅读 10 分钟
282
在当前数据驱动的商业环境中,人工智能(AI)和机器学习(ML)已成为各行业决策制定的关键工具。从金融机构的信贷风险预测到医疗保健提供者的疾病诊断,AI模型正在塑造对生活和业务有深远影响的结果。

PAIRDISTILL: 用于密集检索的成对相关性蒸馏方法

10 月 5 日
阅读 3 分钟
171
在当今海量数据时代,有效的信息检索(IR)技术对于从庞大数据集中提取相关信息至关重要。近年来,密集检索技术展现出了相比传统稀疏检索方法更加显著的效果。

扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法

10 月 4 日
阅读 5 分钟
236
随着大型语言模型(LLMs)的迅速普及,如何有效地引导它们生成安全、适合特定应用和目标受众的内容成为一个关键挑战。例如,我们可能希望语言模型在与幼儿园孩子互动时使用不同的语言,或在撰写喜剧小品、提供法律支持或总结新闻文章时采用不同的风格。

SCoRe: 通过强化学习教导大语言模型进行自我纠错

10 月 3 日
阅读 3 分钟
320
大语言模型(LLMs)在推理任务中,如数学问题求解和编程,已经展现出了优秀的性能。尽管它们能力强大,但在实现能够通过计算和交互来改进其回答的算法方面仍然面临挑战。现有的自我纠错方法要么依赖于提示工程,要么需要使用额外的模型进行微调,但这些方法都有局限性,往往无法产生有意义的自我纠错。

VisionTS:基于时间序列的图形构建高性能时间序列预测模型,利用图像信息进行时间序列预测

10 月 2 日
阅读 5 分钟
293
尽管第一种方法可行(因为Transformer是通用计算引擎)但其效果并不理想。第二种方法已经取得了更显著的成功,如MOIRAI、TimesFM、TTM等模型所示。

闭源与开源嵌入模型比较以及提升语义搜索效果的技术探讨

10 月 1 日
阅读 11 分钟
266
上图为执行语义搜索前的聚类演示 ,嵌入技术是自然语言处理的核心组成部分。虽然嵌入技术的应用范围广泛,但在检索应用中的语义搜索仍是其最常见的用途之一。

Minstrel自动生成结构化提示,让AI为AI写提示词的多代理提示生成框架

9 月 30 日
阅读 4 分钟
141
在人工智能快速发展的今天,如何有效利用大型语言模型(LLMs)成为了一个普遍关注的话题。这是9月份的一篇论文,提出了LangGPT结构化提示框架和Minstrel多代理提示生成系统,为非AI专家使用LLMs提供了强大支持。

在Pytorch中为不同层设置不同学习率来提升性能,优化深度学习模型

9 月 29 日
阅读 4 分钟
116
在深度学习模型的训练过程中,学习率作为一个关键的超参数,对模型的收敛速度和最终性能有着重大影响。传统方法通常采用统一的学习率,但随着研究的深入,我们发现为网络的不同层设置不同的学习率可能会带来显著的性能提升。本文将详细探讨这一策略的实施方法及其在PyTorch框架中的具体应用。