deephub - SegmentFault 思否

在AMD GPU上部署AI大模型：从ROCm环境搭建到Ollama本地推理实战指南

5 月 6 日

阅读 10 分钟

661

在人工智能和机器学习领域，NVIDIA 公司凭借其 CUDA 计算生态系统和高性能 GPU 架构，已成为大型语言模型(LLM)训练与推理的主导力量。从基础实验到前沿研究，NVIDIA 的技术方案几乎成为了行业标准。作为其主要竞争对手，AMD（YES！）在 AI 计算领域的发展潜力值得关注。

防止交叉验证中的数据泄露：提升模型在实际环境中的性能

deephub

5 月 5 日

阅读 5 分钟

548

你刚刚完成了一个机器学习模型的训练，其验证准确率达到了95%。交叉验证结果显示性能稳定，项目相关方对此表示认可，正准备将模型部署到生产环境。但是现实情况却令人沮丧——在实际应用环境中，这个"高性能"模型的准确率仅达到约60%。问题究竟出在哪里？

Perforated Backpropagation：神经网络优化的创新技术及PyTorch使用指南

deephub

5 月 1 日

阅读 5 分钟

538

近年来，深度学习在从大型语言模型(LLM)到机器人技术再到医疗人工智能的众多领域展现出了显著成效。随着研究资源的持续投入，这一领域通过架构创新、更大规模的数据集和先进硬件而不断发展。然而，深度学习的基础构建模块——人工神经元，自1943年首次数学表述以来几乎保持不变。同样，其基础算法——基于梯度下降的反向传播...

加速LLM大模型推理，KV缓存技术详解与PyTorch实现

deephub

4 月 30 日

阅读 13 分钟

815

随着大型语言模型(LLM)规模和复杂度的指数级增长，推理效率已成为人工智能领域亟待解决的关键挑战。当前，GPT-4、Claude 3和Llama 3等大模型虽然表现出强大的理解与生成能力，但其自回归解码过程中的计算冗余问题依然显著制约着实际应用场景中的响应速度和资源利用效率。

零训练成本优化LLM： 11种LLM权重合并策略原理与MergeKit实战配置

deephub

4 月 29 日

阅读 10 分钟

840

随着大语言模型的快速发展，如何在不消耗大量计算资源的情况下优化模型性能成为业界关注焦点。模型权重合并技术提供了一种零训练成本的高效解决方案，能够智能整合多个专业微调模型的优势，无需额外训练即可显著提升性能表现。本文系统剖析11种前沿权重合并策略的理论基础与数学原理，从简单的线性插值到复杂的几何映射...

NoProp：无需反向传播，基于去噪原理的非全局梯度传播神经网络训练，可大幅降低内存消耗

deephub

4 月 28 日

阅读 3 分钟

663

反向传播算法自四十年前问世以来一直作为深度学习的基石，然而仍然面临两项关键技术挑战：首先由于必须存储中间激活值用于梯度计算，导致内存消耗显著；其次其本质上的顺序计算特性严重限制了模型在分布式多GPU环境下的并行扩展能力。近期牛津大学、Mila研究所与Google DeepMind的研究团队联合提出了一种名为NoProp的创...

GenPRM：思维链+代码验证，通过生成式推理的过程奖励让大模型推理准确率显著提升

deephub

4 月 27 日

阅读 6 分钟

520

过程奖励模型(PRMs)作为验证机制在提升大型语言模型(LLMs)性能方面展现出显著潜力。而当前PRMs框架面临三个核心技术挑战：过程监督和泛化能力受限、未充分利用LLM生成能力而仅依赖标量值预测，以及在测试时计算无法有效扩展。

PyTabKit：比sklearn更强大的表格数据机器学习框架

deephub

4 月 26 日

阅读 5 分钟

475

长期以来Scikit-Learn 一直作为表格数据机器学习的主流框架，它提供了丰富的算法、预处理工具和模型评估功能。尽管 Scikit-Learn 功能完备，但随着技术的发展，新兴框架 PyTabKit 正逐渐崭露头角。该框架专为表格数据的分类和回归任务设计，集成了 RealMLP 等先进技术以及优化的梯度提升决策树(GBDT)超参数配置，为表格...

SecMulti-RAG：兼顾数据安全与智能检索的多源RAG框架，为企业构建不泄密的智能搜索引擎

deephub

4 月 25 日

阅读 8 分钟

540

本文深入剖析SecMulti-RAG框架，该框架通过集成内部文档库、预构建专家知识以及受控外部大语言模型，并结合保密性过滤机制，为企业提供了一种平衡信息准确性、完整性与数据安全性的RAG解决方案，同时有效控制部署成本。

KG4MM：融合知识图谱与多模态数据预测药物相互作用

deephub

4 月 24 日

阅读 41 分钟

445

知识图谱（Knowledge Graph, KG）作为表示不同实体间复杂关系的有效工具，已得到广泛应用。通过将信息编码为节点（实体）和边（关系），知识图谱简化了关联信息的追踪与分析。用于多模态学习的知识图谱（Knowledge Graphs for Multimodal Learning, KG4MM）借鉴了这一思想，利用知识图谱指导从图像和文本等多模态数据中...

CLIMB自举框架：基于语义聚类的迭代数据混合优化及其在LLM预训练中的应用

deephub

4 月 23 日

阅读 4 分钟

507

尽管优化预训练数据混合对大型语言模型(LLM)的性能有显著影响，但确定最优数据配比仍然是一个亟待解决的挑战。为应对这一问题，英伟达提出了一种名为CLIMB(CLustering-based Iterative data Mixture Bootstrapping)的自动化框架，该框架能够在预训练环境中系统地发现、评估并优化数据混合策略。CLIMB通过在语义空间中嵌...

10招立竿见影的PyTorch性能优化技巧，让模型训练速度翻倍

deephub

4 月 22 日

阅读 16 分钟

948

PyTorch作为深度学习研究与工程领域的主流框架，拥有强大的性能潜力，但许多高级性能特性往往隐藏在文档深处，未被充分利用。本文基于对多种模型架构、不同PyTorch版本和容器环境的实证测试，系统总结了PyTorch性能调优的关键技术，旨在帮助开发者构建高效、可扩展的深度学习应用。

SmolVLM：资源受限环境下的高效多模态模型研究

deephub

4 月 21 日

阅读 7 分钟

608

SmolVLM是专为资源受限设备设计的一系列小型高效多模态模型。尽管模型规模较小，但通过精心设计的架构和训练策略，SmolVLM在图像和视频处理任务上均表现出接近大型模型的性能水平，为实时、设备端应用提供了强大的视觉理解能力。

从零开始用Pytorch实现LLaMA 4的混合专家（MoE）模型

deephub

4 月 20 日

阅读 40 分钟

641

近期发布的LLaMA 4模型引入了混合专家（Mixture of Experts, MoE）架构，旨在提升模型效率和性能。尽管社区对LLaMA 4的实际表现存在一些讨论，但MoE作为一种重要的模型设计范式，继Mistral等模型之后再次受到关注。所以我们将使用Pytorch逐步从零开始实现一个简化版的LLaMA 4 MoE模型。通过详细的代码实现和解释，我们将...

ReSearch：基于强化学习的大语言模型推理搜索框架

deephub

4 月 19 日

阅读 4 分钟

553

ReSearch是一种创新性框架，通过强化学习技术训练大语言模型执行"推理搜索"，无需依赖推理步骤的监督数据。该方法将搜索操作视为推理链的有机组成部分，其中搜索的时机与方式由基于文本的推理过程决定，而搜索结果进一步引导后续推理。研究分析表明，ReSearch在强化学习训练过程中自然地形成了高级推理能力，包括反思与...

2025年GitHub平台上的十大开源MCP服务器汇总分析

deephub

4 月 18 日

阅读 3 分钟

719

随着人工智能生态系统的迅速演进，模型与工具之间的无缝通信已成为技术发展的关键环节。在这一背景下，模型上下文协议（Model Context Protocol，MCP）服务器正日益凸显其战略价值。这些服务器作为连接AI与现实世界的技术桥梁，实现了人工智能模型与现实应用程序、API接口、数据库及自动化工作流程之间的有效交互，从根...

Crawl4AI：为大语言模型打造的开源网页数据采集工具

deephub

4 月 17 日

阅读 3 分钟

769

随着大型语言模型(LLMs)的快速发展，高质量数据供给已成为智能系统的关键基础架构。为使人工智能系统能够生成有实际价值的分析结果，它需要获取及时、结构化且相关性高的数据源。如Crawl4AI这类工具正在革新数据获取与传递机制，使大语言模型能够动态接入多样化数据源，而无需受限于固定API接口的约束。

Triton入门教程：安装与编写和运行简单Triton内核

deephub

4 月 16 日

阅读 15 分钟

889

Triton是一款开源的GPU编程语言与编译器，为AI和深度学习领域提供了高性能GPU代码的高效开发途径。本指南将全面阐述Triton的核心功能、跨平台安装方法、基础应用实例、高级性能优化策略、与CUDA及PyTorch的技术对比，以及在实际项目中的应用场景。

用离散标记重塑人体姿态：VQ-VAE实现关键点组合关系编码

deephub

4 月 15 日

阅读 17 分钟

458

在人体姿态估计领域，传统方法通常将关键点作为基本处理单元，这些关键点在人体骨架结构上代表关节位置（如肘部、膝盖和头部）的空间坐标。现有模型对这些关键点的预测主要采用两种范式：直接通过坐标回归或间接通过热图（heat map，即图像空间中的密集概率分布）进行估计。尽管这些方法在实际应用中取得了显著效果，但...

MCP与A2A协议比较：人工智能系统互联与协作的技术基础架构

deephub

4 月 14 日

阅读 3 分钟

573

在人工智能领域的快速迭代发展中，两种协议已成为构建新一代AI系统的关键基础设施：模型上下文协议（Model Context Protocol，MCP）和代理对代理协议（Agent-to-Agent Protocol，A2A）。表面上这两种协议可能存在相似之处，但它们在设计目标和应用场景上有着明确区分，并正在根本性地重塑AI系统与环境及相互之间的交互方...

比扩散策略更高效的生成模型：流匹配的理论基础与Pytorch代码实现

deephub

4 月 13 日

阅读 11 分钟

760

扩散模型(Diffusion Models)和流匹配(Flow Matching)是用于生成高质量、连贯性强的高分辨率数据（如图像和机器人轨迹）的先进技术。在图像生成领域，扩散模型的代表性应用是Stable Diffusion，该技术已成功迁移至机器人学领域，形成了所谓的"扩散策略"(Diffusion Policy)。值得注意的是，扩散实际上是流匹配的特例，流匹...

从零实现基于扩散模型的文本到视频生成系统：技术详解与Pytorch代码实现

deephub

4 月 12 日

阅读 40 分钟

647

本文详细介绍了基于扩散模型构建的文本到视频生成系统，展示了在MSRV-TT和Shutterstock视频标注数据集上训练的模型输出结果。以下是模型在不同提示词下的生成示例。首先展示一些模型生成效果展示

18个常用的强化学习算法整理：从基础方法到高级模型的理论技术与代码实现

deephub

4 月 11 日

阅读 40 分钟

1.6k

本文系统讲解从基本强化学习方法到高级技术（如PPO、A3C、PlaNet等）的实现原理与编码过程，旨在通过理论结合代码的方式，构建对强化学习算法的全面理解。

PyTorch CUDA内存管理优化：深度理解GPU资源分配与缓存机制

deephub

4 月 10 日

阅读 5 分钟

921

在当代深度学习领域，随着数据集规模呈指数级增长及模型复杂度不断提升，高效利用GPU内存已成为技术实现的首要考量因素。无论GPU计算能力多么强大，板载内存容量始终是制约因素。每次内存分配与释放的影响往往比开发者预期更为深远。研究人员在训练大规模模型时常见的挑战主要包括：

LangChain RAG入门教程：构建基于私有文档的智能问答助手

deephub

4 月 9 日

阅读 7 分钟

866

本文详述了如何通过检索增强生成(RAG)技术构建一个能够利用特定文档集合回答问题的AI系统。通过LangChain框架，可以实现超越预训练模型知识范围的定制化问答能力，适用于专业领域的精准信息检索与生成。

基于LlamaIndex实现CodeAct Agent：代码执行工作流的技术架构与原理

deephub

4 月 8 日

阅读 10 分钟

677

CodeAct作为AI辅助系统的一种先进范式，实现了自然语言处理与代码执行能力的深度融合。通过构建自定义代码执行代理，开发者能够精确控制应用程序中代码的生成、执行及管理流程。本文将详细阐述如何利用LlamaIndex框架从底层构建CodeAct Agent，深入剖析其内部工作机制，以及如何在预构建解决方案的基础上进行定制化扩展。

频率派与贝叶斯统计在营销组合建模中的应用比较：隐私优先时代的方法选择

deephub

4 月 7 日

阅读 4 分钟

453

在营销分析领域的持续演进过程中，营销组合建模(Marketing Mix Modeling, MMM)作为一种核心分析技术，已经经受住了时间的考验。从财富500强企业到新兴的数字化初创公司，MMM始终是一种强大的分析工具，用于量化不同营销渠道对销售量、用户注册率或收入等关键业务指标的贡献程度。

基于Transformer架构的时间序列数据去噪技术研究

deephub

4 月 6 日

阅读 10 分钟

583

Transformer是一种专为处理序列数据而设计的高效神经网络架构。自2017年问世以来，Transformer已在自然语言处理(NLP)领域取得显著成就，并成为现代人工智能平台的核心组件，如OpenAI的ChatGPT[1]、Anthropic的Claude[2]以及Google的Gemini[3]等。除了语言模型应用外，Transformer架构的序列建模能力使其在多种序列数据处...

英伟达新一代GPU架构（50系列显卡）PyTorch兼容性解决方案

deephub

4 月 5 日

阅读 2 分钟

1.3k

随着NVIDIA不断推出基于新架构的GPU产品，机器学习框架需要相应地更新以支持这些硬件。本文记录了在RTX 5070 Ti上运行PyTorch时遇到的CUDA兼容性问题，并详细分析了问题根源及其解决方案，以期为遇到类似情况的开发者提供参考。

FlashTokenizer: 基于C++的高性能分词引擎，速度可以提升8-15倍

deephub

4 月 4 日

阅读 2 分钟

457

随着大型语言模型（LLMs）和基于人工智能的应用程序在各行业的广泛部署，对自然语言处理（NLP）工具性能的要求日益提高。分词处理作为NLP流程中的基础环节，对整体推理性能有着决定性影响。分词过程的计算效率直接关系到模型处理文本的速度和资源消耗。在此技术背景下出现了FlashTokenizer，这是一款专注于性能优化的分...