深入解析Tiktokenizer:大语言模型中核心分词技术的原理与架构

今天 10:36
阅读 16 分钟
57
在快速发展的自然语言处理(NLP)领域,分词(tokenization)作为将原始文本转换为机器可处理格式的首要环节,具有不可替代的重要性。分词过程将文本分割成离散单元——即token,这些token构成了后续分析的基础,包括词嵌入(embedding)、语法解析和模型训练等多个环节。从历史视角来看,早期的文本处理方法主要依赖简单的空格...

机器学习特征筛选:向后淘汰法原理与Python实现

3 月 3 日
阅读 3 分钟
130
向后淘汰法(Backward Elimination)是机器学习领域中一种重要的特征选择技术,其核心思想是通过系统性地移除对模型贡献较小的特征,以提高模型性能和可解释性。该方法从完整特征集出发,逐步剔除不重要的特征,最终保留对预测结果最具影响力的变量子集。

趋势还是噪声?ADF与KPSS检验结果矛盾时的高级时间序列处理方法

3 月 2 日
阅读 4 分钟
143
在时间序列分析领域,评估数据的平稳性是构建准确模型的基础。ADF(Augmented Dickey-Fuller,增广迪基-富勒检验)和KPSS(Kwiatkowski-Phillips-Schmidt-Shin)检验是用于评估时间序列数据平稳性的两种关键统计假设检验方法。当我们遇到ADF检验失败而KPSS检验通过的情况时,这表明我们面对的是一个平稳但具有确定性趋势...

PyTorch内存优化的10种策略总结:在有限资源环境下高效训练模型

3 月 1 日
阅读 6 分钟
250
在大规模深度学习模型训练过程中,GPU内存容量往往成为制约因素,尤其是在训练大型语言模型(LLM)和视觉Transformer等现代架构时。由于大多数研究者和开发者无法使用配备海量GPU内存的高端计算集群,因此掌握有效的内存优化技术变得尤为关键。本文将系统性地介绍多种内存优化策略,这些技术组合应用可使模型训练的内存消...

LLM模型添加自定义Token代码示例:为Llama 3.2模型添加思考与回答标记

2 月 28 日
阅读 10 分钟
250
本文将介绍如何为大型语言模型(LLM)添加自定义token并进行训练,使模型能够有效地利用这些新增token。以Llama 3.2模型为基础,实现了类似DeepSeek R1中think和answer标记功能的扩展方法,通过监督微调使模型学习使用这些标记进行推理过程与答案输出的区分。![]

Featurewiz-Polars:基于XGBoost的高性能特征选择框架,一行代码搞定特征选择

2 月 27 日
阅读 3 分钟
276
特征选择作为机器学习工作流程中的关键环节,对模型性能具有决定性影响。Featurewiz是一个功能强大的特征选择库,具备以下核心能力:高度自动化的特征选择,仅需少量代码即可完成。全面的特征工程功能,不仅能够选择特征,还能生成数百个衍生特征并自动筛选最优特征组合。实现了广受认可的mRMR(最小冗余最大相关)算法,...

Logic-RL: 小模型也能强推理,通过基于规则的强化学习提升大语言模型结构化推理能力

2 月 26 日
阅读 7 分钟
241
这篇论文探讨了基于规则的强化学习(RL)如何解锁LLM中的高级推理能力。通过在受控的逻辑谜题上进行训练并强制执行结构化的思考过程,即使是相对较小的模型也能开发出可转移的问题解决策略。这种方法不仅提高了逻辑任务的性能,而且在高级数学问题解决、软件调试和交互式AI助手等领域也显示出希望。

SelfCite:  通过自监督奖励提升LLM对上下文内容的引用质量

2 月 25 日
阅读 4 分钟
214
大型语言模型 (LLM) 在文本生成领域展现出卓越的能力,然而当需要 引用上下文内容 以支撑其生成内容时,现有方法仍面临挑战。 传统方法在引导 LLM 准确、可靠地对上下文内容进行引用时,容易产生 幻觉,即生成与上下文不符或缺乏上下文依据的引用,从而降低了生成回复的可信度和实用性。 为了解决这一关键问题,SelfCite...

用PyTorch从零构建 DeepSeek R1:模型架构和分步训练详解

2 月 24 日
阅读 39 分钟
547
DeepSeek R1 的完整训练流程核心在于,在其基础模型 DeepSeek V3 之上,运用了多种强化学习策略。本文将从一个可本地运行的基础模型起步,并参照其技术报告,完全从零开始构建 DeepSeek R1,理论结合实践,逐步深入每个训练环节。通过可视化方式,由浅入深地解析 DeepSeek R1 的工作机制。

SmolLM2:多阶段训练策略优化和高质量数据集,小型语言模型同样可以实现卓越的性能表现

2 月 23 日
阅读 6 分钟
269
SmolLM2 采用创新的四阶段训练策略,在仅使用 1.7B 参数的情况下,成功挑战了大型语言模型的性能边界:在 MMLU-Pro 等测试中超越 Qwen2.5-1.5B 近 6 个百分点数学推理能力(GSM8K、MATH)优于 Llama3.2-1B在代码生成和文本重写任务中展现出色表现支持 8K tokens 的长文本处理能力这些成果得益于其精心设计的多阶段训练方...

Diffusion-DPO:一种基于直接偏好优化的扩散模型对齐新方法

2 月 22 日
阅读 4 分钟
360
本文介绍了一种名为 Diffusion-DPO 的方法,该方法改编自最近提出的直接偏好优化 (DPO)。DPO 作为 RLHF 的简化替代方案,通过分类目标直接优化策略,以更好地满足人类偏好。

LLM高效推理:KV缓存与分页注意力机制深度解析

2 月 21 日
阅读 11 分钟
313
随着大型语言模型(LLM)规模和复杂性的持续增长,高效推理的重要性日益凸显。KV(键值)缓存与分页注意力是两种优化LLM推理的关键技术。本文将深入剖析这些概念,阐述其重要性,并探讨它们在仅解码器(decoder-only)模型中的工作原理。

Vision Transformer中的图像块嵌入详解:线性投影和二维卷积的数学原理与代码实现

2 月 20 日
阅读 8 分钟
358
Transformer 架构因其强大的通用性而备受瞩目,它能够处理文本、图像或任何类型的数据及其组合。其核心的“Attention”机制通过计算序列中每个 token 之间的自相似性,从而实现对各种类型数据的总结和生成。在 Vision Transformer 中,图像首先被分解为正方形图像块,然后将这些图像块展平为单个向量嵌入。这些嵌入可以被...

STAR: 利用时空注意力机制和动态频率损失的视频超分辨率增强框架

2 月 19 日
阅读 2 分钟
376
STAR (Spatial-Temporal Augmentation with Text-to-Video Models) 提出了一种创新的视频超分辨率解决方案,针对现有模型中存在的过度平滑和时间一致性不足等问题进行了系统性改进。该方法基于文本到视频(T2V)扩散模型架构,通过优化时序建模能力,有效处理复杂退化场景下的视觉伪影,同时解决了强生成模型导致的保真度...

DeepMind发布Matryoshka(套娃)量化:利用嵌套表示实现多精度LLM的低比特深度学习

2 月 18 日
阅读 5 分钟
322
本文将介绍 Google DeepMind 提出的 Matryoshka 量化技术,该技术通过从单个大型语言模型 (LLM) 实现多精度模型部署,从而革新深度学习。我们将深入研究这项创新技术如何提高 LLM 的效率和准确性。

MOIRAI-MOE: 基于混合专家系统的大规模时间序列预测模型

2 月 17 日
阅读 5 分钟
316
作为早期时间序列基础模型之一,Salesforce 开发的 MOIRAI 凭借其出色的基准测试性能以及开源的大规模预训练数据集 LOTSA 在业界获得了广泛关注。

知识蒸馏方法探究:Google Distilling Step-by-Step 论文深度分析

2 月 16 日
阅读 14 分钟
388
大型语言模型 (Large Language Models, LLMs) 的发展日新月异。从最初的简单对话系统,到如今能够执行文本生成、语言翻译和代码编写等复杂任务的先进模型,LLM 技术实现了跨越式的进步。

大语言模型的解码策略与关键优化总结

2 月 15 日
阅读 5 分钟
356
本文系统性地阐述了大型语言模型(Large Language Models, LLMs)中的解码策略技术原理及其实践应用。通过深入分析各类解码算法的工作机制、性能特征和优化方法,为研究者和工程师提供了全面的技术参考。主要涵盖贪婪解码、束搜索、采样技术等核心解码方法,以及温度参数、惩罚机制等关键优化手段。

DeepSeek 背后的技术:GRPO,基于群组采样的高效大语言模型强化学习训练方法详解

2 月 14 日
阅读 4 分钟
598
强化学习(Reinforcement Learning, RL)已成为提升大型语言模型(Large Language Models, LLMs)推理能力的重要技术手段,特别是在需要复杂推理的任务中。DeepSeek 团队在 DeepSeek-Math [2] 和 DeepSeek-R1 [3] 模型中的突破性成果,充分展示了强化学习在增强语言模型数学推理和问题解决能力方面的巨大潜力。

基于结构化状态空间对偶性的贝叶斯注意力机制设计与实现

2 月 13 日
阅读 11 分钟
326
当前的大型语言模型在处理长序列文本时面临挑战。主要的瓶颈在于注意力机制,它将文本处理为单词(或 tokens)序列。注意力计算的复杂度随序列长度 T 呈平方增长,导致处理长文本的成本显著增加。为了降低计算成本,研究人员积极探索注意力的替代方案,包括递归模型(如 Mamba [1] 和 xLSTM [2])、卷积模型(如 Hyena [...

近端策略优化(PPO)算法的理论基础与PyTorch代码详解

2 月 12 日
阅读 5 分钟
545
近端策略优化(Proximal Policy Optimization, PPO)算法作为一种高效的策略优化方法,在深度强化学习领域获得了广泛应用。特别是在大语言模型(LLM)的人类反馈强化学习(RLHF)过程中,PPO扮演着核心角色。本文将深入探讨PPO的基本原理和实现细节。

CoAT: 基于蒙特卡洛树搜索和关联记忆的大模型推理能力优化框架

2 月 11 日
阅读 3 分钟
445
研究者提出了一种新的关联思维链(Chain-of-Associated-Thoughts, CoAT)方法,该方法通过整合蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)和关联记忆机制来提升大语言模型(LLMs)的推理能力。区别于传统的单步推理方法,CoAT致力于增强LLM的结构化推理能力和自适应优化能力,实现动态知识整合。

用傅里叶变换解码时间序列:从频域视角解析季节性模式

2 月 10 日
阅读 5 分钟
356
在众多时间序列模型中,SARIMA(seasonal autoregressive integrated moving average,季节性自回归积分滑动平均模型)能够有效处理时间序列中的季节性成分。但是在实际应用中,如何准确识别和提取这些季节性模式一直是一个挑战。

PyTorch Profiler 性能优化示例:定位 TorchMetrics 收集瓶颈,提高 GPU 利用率

2 月 9 日
阅读 14 分钟
400
指标收集是每个机器学习项目不可或缺的组成部分,它使我们能够跟踪模型性能并监控训练进度。理想情况下,我们希望在不给训练过程带来额外开销的前提下收集和计算指标。与训练循环的其他部分一样,低效的指标计算可能会引入不必要的开销,延长训练步骤的耗时,并增加训练成本。

DeepSeek × 时间序列 :DeepSeek-TS,基于状态空间增强MLA与GRPO的时序预测新框架

2 月 8 日
阅读 26 分钟
724
本文介绍 DeepSeek-TS,该框架受到 DeepSeek 中高效的多头潜在注意力(MLA)和群组相对策略优化(GRPO)技术的启发,并将其应用于多产品时间序列预测。

SRMT:一种融合共享记忆与稀疏注意力的多智能体强化学习框架

2 月 7 日
阅读 2 分钟
362
在人工智能(AI)和强化学习(RL)领域的发展进程中,长期记忆维持和决策优化一直是核心技术难点。传统强化学习模型在经验回溯方面存在局限性,这显著制约了其在复杂动态环境中的应用效果。自反射记忆Transformer (SRMT)作为一种新型记忆增强型transformer架构,专注于提升基于AI的决策能力和多智能体协同效果。

EvalPlanner:基于“计划-执行”双阶段的大语言模型评估框架

2 月 6 日
阅读 4 分钟
353
大语言模型(LLM)评估系统在生成思维链(Chain-of-Thought, CoT)序列时,需要系统地捕捉评估过程中的推理步骤。但是由于缺乏人工标注的CoT训练数据,以及预定义评估提示在复杂任务中的局限性,构建高质量的LLM评估模型面临重大挑战。另外手动调整评估指令的方法在面对多样化和复杂任务时表现出明显的局限性。

DeepSeek技术报告解析:为什么DeepSeek-R1 可以用低成本训练出高效的模型

2 月 5 日
阅读 3 分钟
1.6k
DeepSeek-R1 通过创新的训练策略实现了显著的成本降低,同时保持了卓越的模型性能。本文将详细分析其核心训练方法。成本优势对比在推理成本方面,DeepSeek-R1 展现出显著优势:输入 tokens : $0.55/百万 tokens输出 tokens : $2.19/百万 tokens相比之下,O1 的推理成本:输入 tokens : $15.00/百万 tokens输出 tokens : ...

数据降维技术研究:Karhunen-Loève展开与快速傅里叶变换的理论基础及应用

2 月 4 日
阅读 2 分钟
286
在现代科学计算和数据分析领域,数据降维与压缩技术对于处理高维数据具有重要意义。本文主要探讨两种基础而重要的数学工具:Karhunen-Loève展开(KLE)和快速傅里叶变换(FFT)。通过分析这两种方法的理论基础和应用特点,阐述它们在数据降维中的优势和适用场景。

PyTorch生态系统中的连续深度学习:使用Torchdyn实现连续时间神经网络

2 月 3 日
阅读 4 分钟
427
神经常微分方程(Neural ODEs)是深度学习领域的创新性模型架构,它将神经网络的离散变换扩展为连续时间动力系统。与传统神经网络将层表示为离散变换不同,Neural ODEs将变换过程视为深度(或时间)的连续函数。这种方法为机器学习开创了新的研究方向,尤其在生成模型、时间序列分析和物理信息学习等领域具有重要应用。...