deephub - SegmentFault 思否

图卷积网络入门：数学基础与架构设计

2024-12-02

阅读 4 分钟

542

数据是对现实世界的抽象表征。物理现象、人类行为模式以及自然规律都可以通过数据结构进行编码和表示。通过实现各类算法和模型，可以挖掘数据中的隐含模式，提取具有实际意义的非平凡信息。卷积神经网络（CNN）专门处理具有网格结构的数据（如图像），循环神经网络（RNN）则针对序列数据（如时间序列或文本）进行建模。...

从本地部署到企业级服务：十种主流LLM推理框架的技术介绍与对比

2024-12-01

阅读 9 分钟

1.1k

大语言模型（Large Language Models, LLMs）的部署是一项具有技术挑战性的工作。随着模型架构日益复杂，以及硬件需求不断提升，部署过程变得愈发复杂。业界已经发展出多种解决方案，使LLM的部署和扩展变得更加便捷。从适用于个人开发的轻量级本地部署工具，到面向企业级高性能生产环境的推理引擎，各类解决方案能够满足...

基于特征子空间的高维异常检测：一种高效且可解释的方法

2024-11-30

阅读 13 分钟

670

在表格数据的异常检测实践中，我们的目标是识别数据中最为异常的记录，这种异常性可以相对于同一数据集中的其他记录衡量，也可以相对于历史数据进行评估。

置信区间与预测区间：数据科学中的不确定性量化技术深度解读

2024-11-29

阅读 4 分钟

962

在数据科学实践中，结果的可靠性评估至关重要。准确理解结果的可靠程度能够为决策制定提供有力支持。当我们能够量化结果的不确定性水平后，可以将其应用于以下方面：进行场景规划，评估最优和最劣情况开展风险评估，分析对决策的影响程度实施模型评估，对比不同模型的性能表现向决策者阐述结果的可信程度不确定性的来源...

基于改进自适应分段线性近似（IAPLA）的微分方程数值解法研究：从简单动力系统到混沌系统的应用分析

2024-11-28

阅读 20 分钟

612

数值方法是一类用于求解难以或无法获得解析解的数学问题的算法集合。这类方法主要处理描述函数在时间或空间维度上演化的微分方程，采用逐步计算的方式获得近似解。在实际应用中，微分方程的数值求解方法在天气预报、工程仿真和金融建模等领域具有重要价值。这些领域中的方程由于其复杂性或缺乏闭式表达式而通常无法获得...

一份写给数据工程师的 Polars 迁移指南：将 Pandas 速度提升 20 倍代码重构实践

2024-11-27

阅读 6 分钟

740

作为新一代数据处理框架，通过利用Rust语言的底层实现和现代化的并行计算架构，在处理大规模数据集时展现出显著的性能优势。根据性能测试文章的数据显示，在CSV文件读取操作中，

Scikit-learn Pipeline完全指南:高效构建机器学习工作流

2024-11-26

阅读 3 分钟

635

在机器学习工作流程中,组合估计器通过将多个转换器(Transformer)和预测器(Predictor)整合到一个管道(Pipeline)中,可以有效简化整个过程。这种方法不仅简化了数据预处理环节,还能确保处理过程的一致性,最大限度地降低数据泄露的风险。构建组合估计器最常用的工具是Scikit-learn提供的Pipeline类。

IoU已经out了，试试这几个变体:GIoU、DIoU和CIoU介绍与对比分析

2024-11-24

阅读 5 分钟

704

你是否曾经训练过一个模型,在评估指标上表现出色,但在实际可视化边界框时,却发现它在许多情况下都失败了?这可能是因为像简单交并比(IoU)这样的标准指标并没有很好地捕捉到你所期望的模型行为。

图神经网络在欺诈检测与蛋白质功能预测中的应用概述

2024-11-23

阅读 3 分钟

393

图是表示关系数据的自然结构范式，特别是在金融网络和蛋白质结构等领域。这类图能够捕捉实体间的复杂关系和交互模式，例如金融系统中的账户间交易或蛋白质中氨基酸的空间连接与相互作用。然而传统的深度学习架构（如RNN、CNN和Transformer）在图结构数据建模方面表现不佳。

优化注意力层提升 Transformer 模型效率：通过改进注意力机制降低机器学习成本

2024-11-22

阅读 14 分钟

981

Transformer 架构由 Vaswani 等人在 2017 年发表的里程碑式论文《Attention Is All You Need》中首次提出，如今已被广泛认为是过去十年间最具开创性的科学突破之一。注意力机制是 Transformer 的核心创新，它为人工智能模型提供了一种全新的方法，使模型能够根据具体任务的需求，灵活地聚焦输入序列的不同部分，从而更深...

LLM2CLIP：使用大语言模型提升CLIP的文本处理，提高长文本理解和跨语言能力

2024-11-21

阅读 5 分钟

1.2k

在人工智能迅速发展的今天，多模态系统正成为推动视觉语言任务前沿发展的关键。CLIP（对比语言-图像预训练）作为其中的典范，通过将文本和视觉表示对齐到共享的特征空间，为图像-文本检索、分类和分割等任务带来了革命性突破。然而其文本编码器的局限性使其在处理复杂长文本和多语言任务时显得力不从心。

解读双编码器和交叉编码器：信息检索中的向量表示与语义匹配

2024-11-20

阅读 4 分钟

608

在信息检索领域（即从海量数据中查找相关信息），双编码器和交叉编码器是两种至关重要的工具。它们各自拥有独特的工作机制、优势和局限性。本文将深入探讨这两种核心技术。

使用Pytorch构建视觉语言模型（VLM）

2024-11-19

阅读 6 分钟

489

视觉语言模型（Vision Language Model，VLM）正在改变计算机对视觉和文本信息的理解与交互方式。本文将介绍 VLM 的核心组件和实现细节，可以让你全面掌握这项前沿技术。我们的目标是理解并实现能够通过指令微调来执行有用任务的视觉语言模型。

使用 PyTorch-BigGraph 构建和部署大规模图嵌入的完整教程

2024-11-18

阅读 12 分钟

636

当涉及到图数据时，复杂性是不可避免的。无论是社交网络中的庞大互联关系、像 Freebase 这样的知识图谱，还是推荐引擎中海量的数据量，处理如此规模的图数据都充满挑战。

25 个值得关注的检索增强生成 (RAG) 模型和框架

2024-11-17

阅读 21 分钟

875

大型语言模型 (LLM) 如 GPT-4 彻底革新了自然语言处理 (NLP) 领域，在生成类人文本、回答问题和执行各种语言相关任务方面展现出卓越的能力。然而，这些模型也存在一些固有的局限性：

利用PyTorch的三元组损失Hard Triplet Loss进行嵌入模型微调

2024-11-16

阅读 8 分钟

514

本文介绍如何使用 PyTorch 和三元组边缘损失 (Triplet Margin Loss) 微调嵌入模型，并重点阐述实现细节和代码示例。三元组损失是一种对比损失函数，通过缩小锚点与正例间的距离，同时扩大锚点与负例间的距离来优化模型。

告别Print，使用IceCream进行高效的Python调试

2024-11-15

阅读 3 分钟

349

语句来追踪程序执行流程，可能会遇到一个持续出现的异常情况，并且经过多次代码审查问题的根源仍然难以确定，这可能是因为随着终端输出信息的不断增加，这种调试方式的局限性逐渐显现。本文将介绍IceCream库，这个专门用于调试的工具显著提升了调试效率，使整个过程更加系统化和规范化。

为什么卷积现在不火了：CNN研究热度降温的深层原因分析

2024-11-14

阅读 2 分钟

499

在深度学习领域，卷积神经网络（CNN）曾经是计算机视觉的代名词。自2012年AlexNet在ImageNet竞赛中取得突破性成功以来，CNN在图像识别、目标检测等领域掀起了一场革命。然而，纵观近年的顶会论文和研究热点，我们不得不承认一个现实：CNN相关的研究论文正在减少，曾经的"主角"似乎正逐渐淡出研究者的视野。这种变化绝非...

SMoA: 基于稀疏混合架构的大语言模型协同优化框架

2024-11-13

阅读 3 分钟

413

在大语言模型(LLM)快速发展的背景下，研究者们越来越关注如何通过多代理系统来增强模型性能。传统的多代理方法虽然避免了大规模再训练的需求，但仍面临着计算效率和思维多样性的挑战。本文提出的稀疏代理混合(Sparse Mixture-of-Agents, SMoA)框架，通过借鉴稀疏专家混合(Sparse Mixture-of-Experts, SMoE)的设计理念，...

TSMamba：基于Mamba架构的高效时间序列预测基础模型

2024-11-12

阅读 4 分钟

827

在当今数据驱动的世界中，时间序列预测在多个领域扮演着关键角色。从医疗保健分析师预测患者流量，到金融分析师预测股市趋势，再到气候科学家预测环境变化，准确的时间序列预测都至关重要。然而，传统的预测模型面临着三个主要挑战：

基于MCMC的贝叶斯营销组合模型评估方法论：系统化诊断、校准及选择的理论框架

2024-11-11

阅读 16 分钟

391

贝叶斯营销组合建模（Bayesian Marketing Mix Modeling，MMM）作为一种先进的营销效果评估方法，其核心在于通过贝叶斯框架对营销投资的影响进行量化分析。在实践中为确保模型的可靠性和有效性，需要系统地进行模型诊断、分析和比较。本文将重点探讨这些关键环节，包括：

深度学习工程实践：PyTorch Lightning与Ignite框架的技术特性对比分析

2024-11-10

阅读 18 分钟

590

在深度学习框架的选择上，PyTorch Lightning和Ignite代表了两种不同的技术路线。本文将从技术实现的角度，深入分析这两个框架在实际应用中的差异，为开发者提供客观的技术参考。

通过pin_memory 优化 PyTorch 数据加载和传输:工作原理、使用场景与性能分析

2024-11-09

阅读 7 分钟

742

在 PyTorch 框架中,有一个看似简单的设置可以对模型性能产生重大影响: {代码...} 。这个设置具体起到了什么作用,为什么需要关注它呢?如果你正在处理大规模数据集、实时推理或复杂的多 GPU 训练任务,将 {代码...} 设为 {代码...} 可以提高 CPU 与 GPU 之间的数据传输速度,有可能节省关键的毫秒甚至秒级时间,而这些时间在...

贝叶斯统计中常见先验分布选择方法总结

2024-11-08

阅读 4 分钟

777

在贝叶斯统计中,选择合适的先验分布是一个关键步骤。本文将详细介绍三种主要的先验分布选择方法:经验贝叶斯方法信息先验无信息/弱信息先验经验贝叶斯方法经验贝叶斯方法是一种最大似然估计(MLE)方法,通过最大化先验分布下数据的边际似然来估计先验分布的参数。设X表示数据,θ表示参数,则经验贝叶斯估计可表示为:θ = argma...

基于LLM Graph Transformer的知识图谱构建技术研究：LangChain框架下转换机制实践

2024-11-06

阅读 15 分钟

743

文本到图谱的转换是一个具有技术挑战性的研究领域，其核心任务是将非结构化文本数据转换为结构化的图谱表示。这种技术虽然由来已久，但随着大型语言模型(LLMs)的发展，其应用范围得到了显著扩展，并逐渐成为主流技术方案之一。

基于Liquid State Machine的时间序列预测:利用储备池计算实现高效建模

2024-11-05

阅读 4 分钟

418

Liquid State Machine (LSM) 是一种脉冲神经网络 (Spiking Neural Network, SNN) ,在计算神经科学和机器学习领域中得到广泛应用,特别适用于处理时变或动态数据。它是受大脑自然信息处理过程启发而提出的一种脉冲神经网络。

深入理解多重共线性:基本原理、影响、检验与修正策略

2024-11-04

阅读 5 分钟

774

在数据科学和机器学习领域,构建可靠且稳健的模型是进行准确预测和获得有价值见解的关键。然而当模型中的变量开始呈现出高度相关性时,就会出现一个常见但容易被忽视的问题 —— 多重共线性。多重共线性是指两个或多个预测变量之间存在强相关性,导致模型难以区分它们对目标变量的贡献。如果忽视多重共线性,它会扭曲模型的结...

基于PyTorch的大语言模型微调指南：Torchtune完整教程与代码示例

2024-11-03

阅读 9 分钟

837

近年来,大型语言模型(Large Language Models, LLMs)在自然语言处理(Natural Language Processing, NLP)领域取得了显著进展。这些模型通过在大规模文本数据上进行预训练,能够习得语言的基本特征和语义,从而在各种NLP任务上取得了突破性的表现。为了将预训练的LLM应用于特定领域或任务,通常需要在领域特定的数据集上对模型...

深度学习中的学习率调度:循环学习率、SGDR、1cycle 等方法介绍及实践策略研究

2024-10-28

阅读 8 分钟

9.6k

深度学习实践者都知道,在训练神经网络时,正确设置学习率是使模型达到良好性能的关键因素之一。学习率通常会在训练过程中根据某种调度策略进行动态调整。调度策略的选择对训练质量也有很大影响。

过采样与欠采样技术原理图解:基于二维数据的常见方法效果对比

2024-10-27

阅读 6 分钟

794

在现实场景中,收集一个每个类别样本数量完全相同的数据集是十分困难的。实际数据往往是不平衡的,这对于分类模型的训练可能会造成问题。当模型在这样一个不平衡数据集上训练时,由于某个类别的样本数量远多于其他类别,模型通常会更擅长预测样本量较大的类别,而在预测小类别时表现不佳。为了缓解这一问题,我们可以使用过采...

7

7