利用未标记数据的半监督学习在模型训练中的效果评估

9 月 15 日
阅读 4 分钟
350
数据科学家在实践中经常面临的一个关键挑战是缺乏足够的标记数据来训练可靠且准确的模型。标记数据对于监督学习任务(如分类或回归)至关重要。但是在许多领域,获取标记数据往往成本高昂、耗时或不切实际。相比之下,未标记数据通常较易获取,但无法直接用于模型训练。

MemLong: 基于记忆增强检索的长文本LLM生成方法

9 月 14 日
阅读 5 分钟
375
本文将介绍MemLong,这是一种创新的长文本语言模型生成方法。MemLong通过整合外部检索器来增强模型处理长上下文的能力,从而显著提升了大型语言模型(LLM)在长文本处理任务中的表现。

KAN专家混合模型在高性能时间序列预测中的应用:RMoK模型架构探析与Python代码实验

9 月 13 日
阅读 7 分钟
464
Kolmogorov-Arnold网络(KAN)的提出为深度学习领域带来了重要突破,它作为多层感知器(MLP)的一种替代方案,展现了新的可能性。MLP作为众多深度学习模型的基础构件,包括目前最先进的预测方法如N-BEATS、NHiTS和TSMixer,已经在各个领域得到广泛应用。

使用ClassificationThresholdTuner进行二元和多类分类问题阈值调整,提高模型性能增强结果可解释性

9 月 12 日
阅读 17 分钟
520
在分类问题中,调整用于决策的概率阈值是一个常被忽视但却简单有效的步骤。这个过程不仅容易实施,还能显著提升模型质量。对于大多数分类问题,这都是一个值得执行的步骤(根据具体的优化目标,也存在一些例外情况)。

RAG系统的7个检索指标:信息检索任务准确性评估指南

9 月 11 日
阅读 4 分钟
846
大型语言模型(LLMs)作为一种生成式AI技术,在近两年内获得了显著的关注和应用。但是在实际部署中,LLMs的知识局限性和幻觉问题仍然是一个挑战。检索增强生成(Retrieval Augmented Generation,RAG)通过为LLM提供额外的外部知识和上下文,有效地解决了这些问题。截至2024年RAG已经成为应用生成式AI领域中最具影响力的...

Monte Carlo方法解决强化学习问题

9 月 10 日
阅读 14 分钟
298
这一特性极具吸引力 - 因为在实际应用中,环境模型往往是未知的,或者难以精确建模转移概率。以21点游戏为例:尽管我们完全理解游戏规则,但通过DP方法解决它将极为繁琐 - 因为需要计算各种条件概率,例如给定当前已发牌的情况下,"21点"出现的概率,再抽到一张7的概率等。而通过MC方法,可以绕过这些复杂计算,直接从游戏体验中...

Transformer、RNN和SSM的相似性探究:揭示看似不相关的LLM架构之间的联系

9 月 9 日
阅读 8 分钟
331
尽管Mamba等线性循环神经网络(RNN)和状态空间模型(SSM)近来备受关注,Transformer架构仍然是LLM的主要支柱。这种格局可能即将发生变化:像Jamba、Samba和Griffin这样的混合架构展现出了巨大的潜力。这些模型在时间和内存效率方面明显优于Transformer,同时在能力上与基于注意力的LLM相比并未显著下降。

时间序列结构变化分析:Python实现时间序列变化点检测

9 月 8 日
阅读 4 分钟
662
但是实际数据集中很少观察到完全的平稳性。时间序列通常会经历结构性断裂或变化。这些变化会引入非平稳性,从而改变时间序列的整体分布,这些标志着变化开始的时间点被称为变化点。

图特征工程实践指南:从节点中心性到全局拓扑的多尺度特征提取

9 月 7 日
阅读 12 分钟
495
本文将以NetworkX库中提供的Zachary网络作为示例。这个广为人知的数据集代表了一个大学空手道俱乐部的社交网络,是理解图特征提取的理想起点。

Optuna发布 4.0 重大更新:多目标TPESampler自动化超参数优化速度提升显著

9 月 6 日
阅读 4 分钟
377
Optuna这个备受欢迎的超参数优化框架在近期发布了其第四个主要版本。自2018年首次亮相以来,Optuna不断发展,现已成为机器学习领域的重要工具。其用户社区持续壮大,目前已达到以下里程碑:

使用PyTorch从零构建Llama 3

9 月 4 日
阅读 26 分钟
309
我们上次发了用PyTorch从零开始编写DeepSeek-V2的文章后,有小伙伴留言说希望介绍一下Llama 3。那么今天他就来了,本文将详细指导如何从零开始构建完整的Llama 3模型架构,并在自定义数据集上执行训练和推理。

CNN中的注意力机制综合指南:从理论到Pytorch代码实现

9 月 2 日
阅读 6 分钟
1.5k
注意力机制已经成为深度学习模型,尤其是卷积神经网络(CNN)中不可或缺的组成部分。通过使模型能够选择性地关注输入数据中最相关的部分,注意力机制显著提升了CNN在图像分类、目标检测和语义分割等复杂任务中的性能。本文将全面介绍CNN中的注意力机制,从基本概念到实际实现,为读者提供深入的理解和实践指导。

压缩大型语言模型(LLMs):缩小10倍、性能保持不变

9 月 1 日
阅读 10 分钟
400
尽管LLMs的巨大规模使其在广泛的应用场景中表现卓越,但这也为其在实际问题中的应用带来了挑战。本文将探讨如何通过压缩LLMs来应对这些挑战。我们将介绍关键概念,然后通过具体的Python代码实例进行演示。

6种有效的时间序列数据特征工程技术(使用Python)

8 月 31 日
阅读 7 分钟
519
在商业分析中,"时间"是一个核心概念。我们基于时间组件来分析销售数据、收入、利润、增长,甚至进行预测。然而,对于初学者来说,这可能是一个复杂的主题。在处理时间敏感的数据集时,需要考虑时间序列数据的多个细微方面。

PyTorch数据处理:torch.utils.data模块的7个核心函数详解

8 月 30 日
阅读 4 分钟
290
在机器学习和深度学习项目中,数据处理是至关重要的一环。PyTorch作为一个强大的深度学习框架,提供了多种灵活且高效的数据处理工具。本文将深入介绍PyTorch中

使用 Python TorchRL 进行多代理强化学习

8 月 28 日
阅读 6 分钟
261
随着多代理系统的出现,强化学习的复杂性不断增加。为了管理这种复杂性,像 TorchRL 这样的专门工具提供了一个强大的框架,可以开发和实验多代理强化学习(MARL)算法。本文将深入探讨如何使用 TorchRL 解决 MARL 问题,重点关注多代理环境中的近端策略优化(PPO)。

深入理解GPU内存分配:机器学习工程师的实用指南与实验

8 月 27 日
阅读 18 分钟
161
给定一个模型架构、数据类型、输入形状和优化器,你能否计算出前向传播和反向传播所需的GPU内存量?要回答这个问题,我们需要将流程分解为基本组件,并从底层理解内存需求。以下实验(可以在Google Colab上运行)将帮助你理解核心概念。

时间序列特征提取:从理论到Python代码实践

8 月 26 日
阅读 9 分钟
610
"特征提取"的想法是对我们拥有的数据进行"加工",确保我们提取所有有意义的特征,以便下一步(通常是机器学习应用)可以从中受益。也就是说它是一种通过提供重要特征并过滤掉所有不太重要的特征来"帮助"机器学习步骤的方法。

高效的时间序列可视化:减少认知负荷获得更清晰的洞察

8 月 25 日
阅读 8 分钟
200
可视化时间序列数据是具有挑战性,尤其是涉及多个数据集时。精心设计的可视化不仅能清晰地传达信息,还能减少观察者的认知负荷,使其更容易提取有意义的洞察。

XGBoost中正则化的9个超参数

8 月 24 日
阅读 5 分钟
463
XGBoost是一种以其在各种机器学习任务中的效率和性能而闻名的强大算法。像任何其他复杂模型一样,它可能会过拟合,特别是在处理噪声数据或过多特征时。XGBoost中的正则化有助于通过以下方式缓解这一问题:

基于重要性加权的LLM自我改进:考虑分布偏移的新框架

8 月 23 日
阅读 5 分钟
235
LLM自我改进的典型范式是在自生成数据上训练LLM,但是其中的部分数据可能有害,所以应该被过滤掉。但是目前的工作主要采用基于答案正确性的过滤策略,在这篇论文中,证明过滤掉正确但具有高分布偏移程度(DSE)的样本也可以有利于自我改进的结果。

基于距离度量学习的异常检测:一种通过相关距离度量的异常检测方法

8 月 22 日
阅读 9 分钟
196
异常通常被定义为数据集中与大多数其他项目非常不同的项目。或者说任何与所有其他记录(或几乎所有其他记录)显著不同的记录,并且与其他记录的差异程度超出正常范围,都可以合理地被认为是异常。

泊松自助法(Poisson Bootstrap Sampling):大型数据集上的自助抽样

8 月 21 日
阅读 8 分钟
339
自助抽样可以根据收集的样本推断总体的统计特征(如均值、十分位数、置信区间)。泊松自助抽样(Poisson Bootstrap Sampling)是一种用于统计分析中的重采样技术,特别是在机器学习和数据科学中用于模型评估和误差估计。这种方法的一个特点是保留了样本中数据点出现的自然波动,而不是像传统的自助法那样平均采样,因此在...

深入理解双变量(二元)正态投影:理论基础、直观解释与应用实例

8 月 20 日
阅读 5 分钟
233
在统计学和机器学习中,理解变量之间的关系对于构建预测模型和分析数据至关重要。探索这些关系的一种基本技术是双变量投影 bivariate projection。它依赖于二元正态分布的概念,所以又被称为二元投影。这种技术允许我们根据另一个变量来检验和预测一个变量的行为,利用它们之间的依赖结构,所以在本文中我们统一将其翻译为...

三元组损失Triplet loss 详解

8 月 19 日
阅读 3 分钟
476
深度神经网络在识别模式和进行预测方面表现出色,但在涉及图像识别任务时,它们常常难以区分相似个体的图像。三元组损失是一种强大的训练技术,可以解决这个问题,它通过学习相似度度量,在高维空间中将相似图像准确地嵌入到彼此接近的位置。 在这篇文章中,我们将以简单的技术术语解析三元组损失及其变体批量三元组损失,并提...

将VAE用于时间序列:生成时间序列的合成数据

8 月 17 日
阅读 7 分钟
364
变分自编码器(VAEs)是一种生成式人工智能,因其能够创建逼真的图像而备受关注,它们不仅可以应用在图像上,也可以创建时间序列数据。标准VAE可以被改编以捕捉时间序列数据的周期性和顺序模式,然后用于生成合成数据。本文将使用一维卷积层、策略性的步幅选择、灵活的时间维度和季节性依赖的先验来模拟温度数据。

LongWriter: 基于LLM代理可以将输出窗口大小扩展到10,000+个单词

8 月 16 日
阅读 5 分钟
300
LLM可以处理长达100,000个token的输入,但在生成超过2,000词的适度长度输出时仍然面临困难,因为模型的有效生成长度本质上受到其在监督微调(SFT)过程中所见样本的限制。

60行代码就可以训练/微调 Segment Anything 2 (SAM 2)

8 月 15 日
阅读 11 分钟
5.3k
SAM2(Segment Anything 2)是Meta开发的一个新模型,可以对图像中的任何物体进行分割,而不局限于特定的类别或领域。这个模型的独特之处在于其训练数据的规模:1100万张图像和110亿个掩码。这种广泛的训练使SAM2成为训练新图像分割任务的强大起点。

音频去噪:使用Python和FFT增强音质

8 月 14 日
阅读 3 分钟
562
根据定义,声音去噪是从音频信号中去除不需要的噪音或干扰,以提高其质量和清晰度的过程。这涉及识别和隔离噪音成分(通常以不规则或高频元素为特征),并将其过滤掉,同时保持原始声音的完整性。

掌握 PyTorch 张量乘法:八个关键函数与应用场景对比解析

8 月 13 日
阅读 10 分钟
550
掌握 PyTorch 张量乘法:八个关键函数与应用场景对比解析PyTorch提供了几种张量乘法的方法,每种方法都是不同的,并且有不同的应用。我们来详细介绍每个方法,并且详细解释这些函数有什么区别:1、torch.matmultorch.matmul 是 PyTorch 中用于矩阵乘法的函数。它能够处理各种不同维度的张量,并根据张量的维度自动调整其...