SF
deephub
deephub
注册登录
关注博客
注册登录
主页
关于
RSS
XGBoost中正则化的9个超参数
deephub
2024-08-24
阅读 5 分钟
913
XGBoost是一种以其在各种机器学习任务中的效率和性能而闻名的强大算法。像任何其他复杂模型一样,它可能会过拟合,特别是在处理噪声数据或过多特征时。XGBoost中的正则化有助于通过以下方式缓解这一问题:
基于重要性加权的LLM自我改进:考虑分布偏移的新框架
deephub
2024-08-23
阅读 5 分钟
502
LLM自我改进的典型范式是在自生成数据上训练LLM,但是其中的部分数据可能有害,所以应该被过滤掉。但是目前的工作主要采用基于答案正确性的过滤策略,在这篇论文中,证明过滤掉正确但具有高分布偏移程度(DSE)的样本也可以有利于自我改进的结果。
基于距离度量学习的异常检测:一种通过相关距离度量的异常检测方法
deephub
2024-08-22
阅读 9 分钟
446
异常通常被定义为数据集中与大多数其他项目非常不同的项目。或者说任何与所有其他记录(或几乎所有其他记录)显著不同的记录,并且与其他记录的差异程度超出正常范围,都可以合理地被认为是异常。
泊松自助法(Poisson Bootstrap Sampling):大型数据集上的自助抽样
deephub
2024-08-21
阅读 8 分钟
691
自助抽样可以根据收集的样本推断总体的统计特征(如均值、十分位数、置信区间)。泊松自助抽样(Poisson Bootstrap Sampling)是一种用于统计分析中的重采样技术,特别是在机器学习和数据科学中用于模型评估和误差估计。这种方法的一个特点是保留了样本中数据点出现的自然波动,而不是像传统的自助法那样平均采样,因此在...
深入理解双变量(二元)正态投影:理论基础、直观解释与应用实例
deephub
2024-08-20
阅读 5 分钟
508
在统计学和机器学习中,理解变量之间的关系对于构建预测模型和分析数据至关重要。探索这些关系的一种基本技术是双变量投影 bivariate projection。它依赖于二元正态分布的概念,所以又被称为二元投影。这种技术允许我们根据另一个变量来检验和预测一个变量的行为,利用它们之间的依赖结构,所以在本文中我们统一将其翻译为...
三元组损失Triplet loss 详解
deephub
2024-08-19
阅读 3 分钟
967
深度神经网络在识别模式和进行预测方面表现出色,但在涉及图像识别任务时,它们常常难以区分相似个体的图像。三元组损失是一种强大的训练技术,可以解决这个问题,它通过学习相似度度量,在高维空间中将相似图像准确地嵌入到彼此接近的位置。 在这篇文章中,我们将以简单的技术术语解析三元组损失及其变体批量三元组损失,并提...
将VAE用于时间序列:生成时间序列的合成数据
deephub
2024-08-17
阅读 7 分钟
685
变分自编码器(VAEs)是一种生成式人工智能,因其能够创建逼真的图像而备受关注,它们不仅可以应用在图像上,也可以创建时间序列数据。标准VAE可以被改编以捕捉时间序列数据的周期性和顺序模式,然后用于生成合成数据。本文将使用一维卷积层、策略性的步幅选择、灵活的时间维度和季节性依赖的先验来模拟温度数据。
LongWriter: 基于LLM代理可以将输出窗口大小扩展到10,000+个单词
deephub
2024-08-16
阅读 5 分钟
611
LLM可以处理长达100,000个token的输入,但在生成超过2,000词的适度长度输出时仍然面临困难,因为模型的有效生成长度本质上受到其在监督微调(SFT)过程中所见样本的限制。
60行代码就可以训练/微调 Segment Anything 2 (SAM 2)
deephub
2024-08-15
阅读 11 分钟
12.2k
SAM2(Segment Anything 2)是Meta开发的一个新模型,可以对图像中的任何物体进行分割,而不局限于特定的类别或领域。这个模型的独特之处在于其训练数据的规模:1100万张图像和110亿个掩码。这种广泛的训练使SAM2成为训练新图像分割任务的强大起点。
音频去噪:使用Python和FFT增强音质
deephub
2024-08-14
阅读 3 分钟
960
根据定义,声音去噪是从音频信号中去除不需要的噪音或干扰,以提高其质量和清晰度的过程。这涉及识别和隔离噪音成分(通常以不规则或高频元素为特征),并将其过滤掉,同时保持原始声音的完整性。
掌握 PyTorch 张量乘法:八个关键函数与应用场景对比解析
deephub
2024-08-13
阅读 10 分钟
1.1k
掌握 PyTorch 张量乘法:八个关键函数与应用场景对比解析PyTorch提供了几种张量乘法的方法,每种方法都是不同的,并且有不同的应用。我们来详细介绍每个方法,并且详细解释这些函数有什么区别:1、torch.matmultorch.matmul 是 PyTorch 中用于矩阵乘法的函数。它能够处理各种不同维度的张量,并根据张量的维度自动调整其...
使用BatchNorm替代LayerNorm可以减少Vision Transformer训练时间和推理时间
deephub
2024-08-12
阅读 18 分钟
1.3k
以Vision Transformer (ViT)的发现为先导的基于transformer的架构在计算机视觉领域引发了一场革命。对于广泛的应用,ViT及其各种变体已经有效地挑战了卷积神经网络(CNN)作为最先进架构的地位。尽管取得了一些成功,但是ViT需要更长的训练时间,并且对于小型到中型输入数据大小,推理速度较慢。因此研究更快训练和推理Vision ...
Skeleton Recall Loss 分割领域的新突破:极大的减少了资源消耗,还能提高性能
deephub
2024-08-11
阅读 5 分钟
801
精确分割在当今众多领域都是一项关键需求比如说自动驾驶汽车的训练、医学图像识别系统,以及通过卫星图像进行监测。在许多其他领域,当感兴趣的对象微小但至关重要时,例如研究血管流动、手术规划、检测建筑结构中的裂缝或优化路线规划,需要更高的精度。此前已经做了大量工作来解决这种具有挑战性的分割问题。
多元时间序列分析统计学基础:基本概念、VMA、VAR和VARMA
deephub
2024-08-10
阅读 9 分钟
1.3k
多元时间序列是一个在大学课程中经常未被提及的话题。但是现实世界的数据通常具有多个维度,所以需要多元时间序列分析技术。在这文章我们将通过可视化和Python实现来学习多元时间序列概念。这里假设读者已经了解单变量时间序列分析。
模型量化技术综述:揭示大型语言模型压缩的前沿技术
deephub
2024-08-03
阅读 12 分钟
1.2k
大型语言模型(LLMs)通常因为体积过大而无法在消费级硬件上运行。这些模型可能包含数十亿个参数,通常需要配备大量显存的GPU来加速推理过程。
深入浅出:可视化理解揭示决策树与梯度提升背后的数学原理
deephub
2024-08-02
阅读 27 分钟
859
决策树是一种非参数的监督学习算法,可用于分类和回归。它使用类似树的结构来表示决策及其潜在结果。决策树易于理解和解释,并且可以轻松地进行可视化。但是当决策树模型变得过于复杂时,它不能很好地从训练数据中泛化,会导致过拟合。
Adam-mini:内存占用减半,性能更优的深度学习优化器
deephub
2024-08-01
阅读 3 分钟
588
Adam(W)目前为训练LLM的主流优化器,但其内存开销较大,这是因为Adam优化器需要存储一阶动量m和二阶动量v,总内存占用至少是模型大小的两倍,这对现有的高端显卡也是一种负担。论文提出一种新的优化器Adam-mini,在不牺牲性能的情况下减少Adam优化器的内存占用。
深度学习中常用损失函数介绍
deephub
2024-07-28
阅读 5 分钟
1.8k
选择正确的损失函数对于训练机器学习模型非常重要。不同的损失函数适用于不同类型的问题。本文将总结一些常见的损失函数,并附有易于理解的解释、用法和示例
大语言模型的Scaling Law:如何随着模型大小、训练数据和计算资源的增加而扩展
deephub
2024-07-27
阅读 5 分钟
2.4k
人工智能的世界正在经历一场革命,大型语言模型正处于这场革命的前沿,它们似乎每天都在变得更加强大。从BERT到GPT-3再到PaLM,这些AI巨头正在推动自然语言处理可能性的边界。但你有没有想过是什么推动了它们能力的飞速提升?
精简模型,提升效能:线性回归中的特征选择技巧
deephub
2024-07-26
阅读 14 分钟
953
在本文中,我们将探讨各种特征选择方法和技术,用以在保持模型评分可接受的情况下减少特征数量。通过减少噪声和冗余信息,模型可以更快地处理,并减少复杂性。
贝叶斯分析与决策理论:用于确定分类问题决策点的应用
deephub
2024-07-25
阅读 6 分钟
512
在分类问题中,一个常见的难题是决定输出为数字时各类别之间的切分点。例如,一个神经网络的输出是介于0到1之间的数字,比如0.7,这是对应于正类(1)还是负类(0)?常识告诉我们使用0.5作为决策标记,但如果低估正类的风险较高怎么办?或者如果类别不平衡呢?
大语言模型对时间序列预测真的有用吗?
deephub
2024-07-24
阅读 3 分钟
704
我们已经看到了语言模型的巨大进步,但时间序列任务,如预测呢?今天我们推荐一篇论文,对现有的语言模型和时间序列做了深入的研究。将探讨了是否可以从大型语言模型(LLMs)中获益于时间序列(TS)预测。
用PyTorch从零开始编写DeepSeek-V2
deephub
2024-07-23
阅读 8 分钟
1.7k
DeepSeek-V2是一个强大的开源混合专家(MoE)语言模型,通过创新的Transformer架构实现了经济高效的训练和推理。该模型总共拥有2360亿参数,其中每个令牌激活21亿参数,支持最大128K令牌的上下文长度。
VQ-VAE:矢量量化变分自编码器,离散化特征学习模型
deephub
2024-07-22
阅读 5 分钟
1.1k
VQ-VAE 是变分自编码器(VAE)的一种改进。这些模型可以用来学习有效的表示。本文将深入研究 VQ-VAE 之前,不过,在这之前我们先讨论一些概率基础和 VAE 架构。
多任务高斯过程数学原理和Pytorch实现示例
deephub
2024-07-20
阅读 9 分钟
1.2k
高斯过程其在回归任务中的应用我们都很熟悉了,但是我们一般介绍的都是针对单个任务的,也就是单个输出。本文我们将讨论扩展到多任务gp,强调它们的好处和实际实现。
谷歌的时间序列预测的基础模型TimesFM详解和对比测试
deephub
2024-07-18
阅读 12 分钟
2.6k
TimesFM是一个为时间序列数据量身定制的大型预训练模型——一个无需大量再训练就能提供准确预测的模型。TimesFM有2亿参数,并在1000亿真实世界时间点上进行了训练。可以允许额外的协变量作为特征。
Pytorch的编译新特性TorchDynamo的工作原理和使用示例
deephub
2024-07-17
阅读 26 分钟
793
在深度学习中,优化模型性能至关重要,特别是对于需要快速执行和实时推断的应用。而PyTorch在平衡动态图执行与高性能方面常常面临挑战。传统的PyTorch优化技术在处理动态计算图时效果有限,导致训练时间延长和模型性能不佳。TorchDynamo是一种为PyTorch设计的即时(JIT)编译器,通过在运行时拦截Python代码、优化它,并...
注意力机制中三种掩码技术详解和Pytorch实现
deephub
2024-07-16
阅读 8 分钟
2.4k
注意力机制是许多最先进神经网络架构的基本组成部分,比如Transformer模型。注意力机制中的一个关键方面是掩码,它有助于控制信息流,并确保模型适当地处理序列。
Transformer中高级位置编码的介绍和比较:Linear Rope、NTK、YaRN、CoPE
deephub
2024-07-15
阅读 9 分钟
1.1k
在处理诸如文本之类的序列时,排序信息显然是至关重要的。为了结合排序信息而不是将序列视为集合,对位置信息进行编码是至关重要的。位置编码通过为每个位置分配嵌入向量并将其添加到相应的标记表示来实现这一点。绝对和相对位置编码是最常见的两种位置编码方式,但是本文将要比较更高级的位置编码方法:
Doping:使用精心设计的合成数据测试和评估异常检测器的技术
deephub
2024-07-14
阅读 7 分钟
1.7k
在这篇文章中,我们将探讨测试和评估异常检测器的问题(这是一个众所周知的难题),并提出了一种解决方案被称为“Doping”方法。使用Doping方法,真实数据行会被(通常是)随机修改,修改的方式是确保它们在某些方面可能成为异常值,这时应该被异常检测器检测到。然后通过评估检测器检测Doping记录的效果来评估这些检测器。
上一页
1
…
More
8
9
10
(current)
11
12
…
More
下一页
上一页
10
(current)
下一页