IoU已经out了,试试这几个变体:GIoU、DIoU和CIoU介绍与对比分析

2024-11-24
阅读 5 分钟
579
你是否曾经训练过一个模型,在评估指标上表现出色,但在实际可视化边界框时,却发现它在许多情况下都失败了?这可能是因为像简单交并比(IoU)这样的标准指标并没有很好地捕捉到你所期望的模型行为。

图神经网络在欺诈检测与蛋白质功能预测中的应用概述

2024-11-23
阅读 3 分钟
339
图是表示关系数据的自然结构范式,特别是在金融网络和蛋白质结构等领域。这类图能够捕捉实体间的复杂关系和交互模式,例如金融系统中的账户间交易或蛋白质中氨基酸的空间连接与相互作用。然而传统的深度学习架构(如RNN、CNN和Transformer)在图结构数据建模方面表现不佳。

优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本

2024-11-22
阅读 14 分钟
833
Transformer 架构由 Vaswani 等人在 2017 年发表的里程碑式论文《Attention Is All You Need》中首次提出,如今已被广泛认为是过去十年间最具开创性的科学突破之一。注意力机制是 Transformer 的核心创新,它为人工智能模型提供了一种全新的方法,使模型能够根据具体任务的需求,灵活地聚焦输入序列的不同部分,从而更深...

LLM2CLIP:使用大语言模型提升CLIP的文本处理,提高长文本理解和跨语言能力

2024-11-21
阅读 5 分钟
574
在人工智能迅速发展的今天,多模态系统正成为推动视觉语言任务前沿发展的关键。CLIP(对比语言-图像预训练)作为其中的典范,通过将文本和视觉表示对齐到共享的特征空间,为图像-文本检索、分类和分割等任务带来了革命性突破。然而其文本编码器的局限性使其在处理复杂长文本和多语言任务时显得力不从心。

解读双编码器和交叉编码器:信息检索中的向量表示与语义匹配

2024-11-20
阅读 4 分钟
522
在信息检索领域(即从海量数据中查找相关信息),双编码器和交叉编码器是两种至关重要的工具。它们各自拥有独特的工作机制、优势和局限性。本文将深入探讨这两种核心技术。

使用Pytorch构建视觉语言模型(VLM)

2024-11-19
阅读 6 分钟
402
视觉语言模型(Vision Language Model,VLM)正在改变计算机对视觉和文本信息的理解与交互方式。本文将介绍 VLM 的核心组件和实现细节,可以让你全面掌握这项前沿技术。我们的目标是理解并实现能够通过指令微调来执行有用任务的视觉语言模型。

使用 PyTorch-BigGraph 构建和部署大规模图嵌入的完整教程

2024-11-18
阅读 12 分钟
585
当涉及到图数据时,复杂性是不可避免的。无论是社交网络中的庞大互联关系、像 Freebase 这样的知识图谱,还是推荐引擎中海量的数据量,处理如此规模的图数据都充满挑战。

25 个值得关注的检索增强生成 (RAG) 模型和框架

2024-11-17
阅读 21 分钟
783
大型语言模型 (LLM) 如 GPT-4 彻底革新了自然语言处理 (NLP) 领域,在生成类人文本、回答问题和执行各种语言相关任务方面展现出卓越的能力。然而,这些模型也存在一些固有的局限性:

利用PyTorch的三元组损失Hard Triplet Loss进行嵌入模型微调

2024-11-16
阅读 8 分钟
445
本文介绍如何使用 PyTorch 和三元组边缘损失 (Triplet Margin Loss) 微调嵌入模型,并重点阐述实现细节和代码示例。三元组损失是一种对比损失函数,通过缩小锚点与正例间的距离,同时扩大锚点与负例间的距离来优化模型。

告别Print,使用IceCream进行高效的Python调试

2024-11-15
阅读 3 分钟
290
语句来追踪程序执行流程,可能会遇到一个持续出现的异常情况,并且经过多次代码审查问题的根源仍然难以确定,这可能是因为随着终端输出信息的不断增加,这种调试方式的局限性逐渐显现。本文将介绍IceCream库,这个专门用于调试的工具显著提升了调试效率,使整个过程更加系统化和规范化。

为什么卷积现在不火了:CNN研究热度降温的深层原因分析

2024-11-14
阅读 2 分钟
431
在深度学习领域,卷积神经网络(CNN)曾经是计算机视觉的代名词。自2012年AlexNet在ImageNet竞赛中取得突破性成功以来,CNN在图像识别、目标检测等领域掀起了一场革命。然而,纵观近年的顶会论文和研究热点,我们不得不承认一个现实:CNN相关的研究论文正在减少,曾经的"主角"似乎正逐渐淡出研究者的视野。这种变化绝非...

SMoA: 基于稀疏混合架构的大语言模型协同优化框架

2024-11-13
阅读 3 分钟
342
在大语言模型(LLM)快速发展的背景下,研究者们越来越关注如何通过多代理系统来增强模型性能。传统的多代理方法虽然避免了大规模再训练的需求,但仍面临着计算效率和思维多样性的挑战。本文提出的稀疏代理混合(Sparse Mixture-of-Agents, SMoA)框架,通过借鉴稀疏专家混合(Sparse Mixture-of-Experts, SMoE)的设计理念,...

TSMamba:基于Mamba架构的高效时间序列预测基础模型

2024-11-12
阅读 4 分钟
687
在当今数据驱动的世界中,时间序列预测在多个领域扮演着关键角色。从医疗保健分析师预测患者流量,到金融分析师预测股市趋势,再到气候科学家预测环境变化,准确的时间序列预测都至关重要。然而,传统的预测模型面临着三个主要挑战:

基于MCMC的贝叶斯营销组合模型评估方法论: 系统化诊断、校准及选择的理论框架

2024-11-11
阅读 16 分钟
342
贝叶斯营销组合建模(Bayesian Marketing Mix Modeling,MMM)作为一种先进的营销效果评估方法,其核心在于通过贝叶斯框架对营销投资的影响进行量化分析。在实践中为确保模型的可靠性和有效性,需要系统地进行模型诊断、分析和比较。本文将重点探讨这些关键环节,包括:

深度学习工程实践:PyTorch Lightning与Ignite框架的技术特性对比分析

2024-11-10
阅读 18 分钟
493
在深度学习框架的选择上,PyTorch Lightning和Ignite代表了两种不同的技术路线。本文将从技术实现的角度,深入分析这两个框架在实际应用中的差异,为开发者提供客观的技术参考。

通过pin_memory 优化 PyTorch 数据加载和传输:工作原理、使用场景与性能分析

2024-11-09
阅读 7 分钟
621
在 PyTorch 框架中,有一个看似简单的设置可以对模型性能产生重大影响: {代码...} 。这个设置具体起到了什么作用,为什么需要关注它呢?如果你正在处理大规模数据集、实时推理或复杂的多 GPU 训练任务,将 {代码...} 设为 {代码...} 可以提高 CPU 与 GPU 之间的数据传输速度,有可能节省关键的毫秒甚至秒级时间,而这些时间在...

贝叶斯统计中常见先验分布选择方法总结

2024-11-08
阅读 4 分钟
632
在贝叶斯统计中,选择合适的先验分布是一个关键步骤。本文将详细介绍三种主要的先验分布选择方法:经验贝叶斯方法信息先验无信息/弱信息先验经验贝叶斯方法经验贝叶斯方法是一种最大似然估计(MLE)方法,通过最大化先验分布下数据的边际似然来估计先验分布的参数。设X表示数据,θ表示参数,则经验贝叶斯估计可表示为:θ = argma...

基于LLM Graph Transformer的知识图谱构建技术研究:LangChain框架下转换机制实践

2024-11-06
阅读 15 分钟
648
文本到图谱的转换是一个具有技术挑战性的研究领域,其核心任务是将非结构化文本数据转换为结构化的图谱表示。这种技术虽然由来已久,但随着大型语言模型(LLMs)的发展,其应用范围得到了显著扩展,并逐渐成为主流技术方案之一。

基于Liquid State Machine的时间序列预测:利用储备池计算实现高效建模

2024-11-05
阅读 4 分钟
351
Liquid State Machine (LSM) 是一种 脉冲神经网络 (Spiking Neural Network, SNN) ,在计算神经科学和机器学习领域中得到广泛应用,特别适用于处理 时变或动态数据。它是受大脑自然信息处理过程启发而提出的一种 脉冲神经网络 。

深入理解多重共线性:基本原理、影响、检验与修正策略

2024-11-04
阅读 5 分钟
658
在数据科学和机器学习领域,构建可靠且稳健的模型是进行准确预测和获得有价值见解的关键。然而当模型中的变量开始呈现出高度相关性时,就会出现一个常见但容易被忽视的问题 —— 多重共线性。多重共线性是指两个或多个预测变量之间存在强相关性,导致模型难以区分它们对目标变量的贡献。如果忽视多重共线性,它会扭曲模型的结...

基于PyTorch的大语言模型微调指南:Torchtune完整教程与代码示例

2024-11-03
阅读 9 分钟
751
近年来,大型语言模型(Large Language Models, LLMs)在自然语言处理(Natural Language Processing, NLP)领域取得了显著进展。这些模型通过在大规模文本数据上进行预训练,能够习得语言的基本特征和语义,从而在各种NLP任务上取得了突破性的表现。为了将预训练的LLM应用于特定领域或任务,通常需要在领域特定的数据集上对模型...

深度学习中的学习率调度:循环学习率、SGDR、1cycle 等方法介绍及实践策略研究

2024-10-28
阅读 8 分钟
9.5k
深度学习实践者都知道,在训练神经网络时,正确设置学习率是使模型达到良好性能的关键因素之一。学习率通常会在训练过程中根据某种调度策略进行动态调整。调度策略的选择对训练质量也有很大影响。

过采样与欠采样技术原理图解:基于二维数据的常见方法效果对比

2024-10-27
阅读 6 分钟
689
在现实场景中,收集一个每个类别样本数量完全相同的数据集是十分困难的。实际数据往往是不平衡的,这对于分类模型的训练可能会造成问题。当模型在这样一个不平衡数据集上训练时,由于某个类别的样本数量远多于其他类别,模型通常会更擅长预测样本量较大的类别,而在预测小类别时表现不佳。为了缓解这一问题,我们可以使用过采...

LLM-Mixer: 融合多尺度时间序列分解与预训练模型,可以精准捕捉短期波动与长期趋势

2024-10-26
阅读 4 分钟
623
近年来,大型语言模型(Large Language Models,LLMs)在自然语言处理领域取得了显著进展。受此启发,研究人员开始探索将LLMs应用于时间序列预测任务的可能性。由于时间序列数据与文本数据在特征上存在显著差异,直接将LLMs应用于时间序列预测仍面临诸多挑战。

RAPTOR:多模型融合+层次结构 = 检索性能提升20%,结果还更稳健

2024-10-25
阅读 9 分钟
942
在现代信息检索领域,单一检索模型的局限性日益显现。本文深入探讨如何通过多模型集成技术提升检索系统的性能,并详细介绍RAPTOR(Recursive Abstractive Processing for Tree-Organized Retrieval)框架的实现机制。这一研究建立在之前探讨的RAG Fusion技术基础之上,旨在提供更全面的信息检索解决方案。

梯度累积的隐藏陷阱:Transformer库中梯度累积机制的缺陷与修正

2024-10-24
阅读 5 分钟
726
在本地环境下对大规模语言模型(LLMs)进行微调时,由于GPU显存限制,采用大批量训练通常难以实现。为解决此问题,一般普遍会采用梯度累积技术来模拟较大的批量规模。该方法不同于传统的每批次更新模型权重的方式,而是通过在多个小批量上累积梯度,在达到预设的累积次数后才执行权重更新。这种方法有效地实现了大批量训...

TimeDART:基于扩散自回归Transformer 的自监督时间序列预测方法

2024-10-23
阅读 10 分钟
748
近年来,随着机器学习技术的进步,深度神经网络已经成为解决时间序列预测问题的主流方法。这反映了学术界和工业界在利用先进技术处理序列数据复杂性方面的持续努力。

11种经典时间序列预测方法:理论、Python实现与应用

2024-10-22
阅读 10 分钟
2.3k
时间序列分析和预测在现代数据科学中扮演着关键角色,广泛应用于金融、经济、气象学和工程等领域。本文将总结11种经典的时间序列预测方法,并提供它们在Python中的实现示例。

MoH:融合混合专家机制的高效多头注意力模型及其在视觉语言任务中的应用

2024-10-21
阅读 5 分钟
931
在深度学习领域,多头注意力机制一直是Transformer模型的核心组成部分,在自然语言处理和计算机视觉任务中取得了巨大成功。然而,研究表明并非所有的注意力头都具有同等重要性,许多注意力头可以在不影响模型精度的情况下被剪枝。基于这一洞察,这篇论文提出了一种名为混合头注意力(Mixture-of-Head attention, MoH)的新架构,...

机器学习中空间和时间自相关的分析:从理论基础到实践应用

2024-10-20
阅读 6 分钟
713
空间和时间自相关是数据分析中的两个基本概念,它们揭示了现象在空间和时间维度上的相互依赖关系。这些概念在各个领域都有广泛应用,从环境科学到城市规划,从流行病学到经济学。本文将探讨这些概念的理论基础,并通过一个实际的野火风险预测案例来展示它们的应用。