LLM 推理优化探微 (3) :如何有效控制 KV 缓存的内存占用,优化推理速度?

2024-03-09
阅读 12 分钟
2.5k
编者按: 随着 LLM 赋能越来越多需要实时决策和响应的应用场景,以及用户体验不佳、成本过高、资源受限等问题的出现,大模型高效推理已成为一个重要的研究课题。为此,Baihai IDP 推出 Pierre Lienhart 的系列文章,从多个维度全面剖析 Transformer 大语言模型的推理过程,以期帮助读者对这个技术难点建立系统的理解,并...
封面图

LLM 推理优化探微 (2) :Transformer 模型 KV 缓存技术详解

2024-03-06
阅读 7 分钟
3.3k
编者按:随着 LLM 赋能越来越多需要实时决策和响应的应用场景,以及用户体验不佳、成本过高、资源受限等问题的出现,大模型高效推理已成为一个重要的研究课题。为此,Baihai IDP 推出 Pierre Lienhart 的系列文章,从多个维度全面剖析 Transformer 大语言模型的推理过程,以期帮助读者对这个技术难点建立系统的理解,并...
封面图

化是渐化,变是顿变:一窥 OpenAI Sora 相关技术的演进

2024-03-01
阅读 9 分钟
781
编者按: 近期,OpenAI 发布通用视觉大模型 Sora ,这也是继文本模型ChatGPT和图片模型Dall-E之后,又一极具颠覆性的大模型产品,人们重新思考了生成式 AI 在视觉内容创作领域的应用前景,内容创作工作流有望被颠覆。我们今天要为大家分享的这篇博文,作者认为 Sora 代表了Transformer、NaViT、扩散模型等一系列视觉AI技...
封面图

OpenAI Sora 关键技术详解:揭秘时空碎片 (Spacetime Patches) 技术

2024-02-22
阅读 4 分钟
1.7k
编者按:近日,OpenAI发布其首个视频生成模型“Sora”,该模型生成的视频内容可以呈现出多个角色、特定动作以及复杂场景,为构建能够理解和模拟现实世界的人工智能模型奠定了基础。本文解析的重点即是 Sora 背后的核心技术 Spacetime Patches,作者认为该技术通过创新的时空数据建模方法,让 Sora 学会预测时空维度上事件...
封面图

LLM 模型融合实践指南:低成本构建高性能语言模型

2024-02-21
阅读 12 分钟
2.4k
编者按:随着大语言模型技术的快速发展,模型融合成为一种低成本但高性能的模型构建新途径。本文作者 Maxime Labonne 利用 mergekit 库探索了四种模型融合方法:SLERP、TIES、DARE和passthrough。通过配置示例和案例分析,作者详细阐释了这些算法的原理及实践操作。作者的核心观点是:相比训练全新模型,融合现有模型可...
封面图

LoRA:语言模型微调的计算资源优化策略

2024-02-05
阅读 7 分钟
1.2k
编者按:随着数据量和计算能力的增加,大模型的参数量也在不断增加,同时进行大模型微调的成本也变得越来越高。全参数微调需要大量的计算资源和时间,且在进行切换下游任务时代价高昂。本文作者介绍了一种新方法 LoRA,可以在保持模型性能的同时大幅减少微调的参数量和所需资源。LoRA通过引入两个低秩适配矩阵,用矩阵乘...

LLM 推理优化探微 (1) :Transformer 解码器的推理过程详解

2024-01-31
阅读 5 分钟
2.8k
编者按:随着 LLM 赋能越来越多需要实时决策和响应的应用场景,以及用户体验不佳、成本过高、资源受限等问题的出现,大模型高效推理已成为一个重要的研究课题。为此,Baihai IDP 推出 Pierre Lienhart 的系列文章,从多个维度全面剖析 Transformer 大语言模型的推理过程,以期帮助读者对这个技术难点建立系统的理解,并...
封面图

探讨 LLM 的潜在风险 (偏见与毒性等),是否存在解决之道?

2024-01-25
阅读 13 分钟
2.2k
编者按:随着 GPT-4 等大语言模型(LLM)的蓬勃发展,人们开始关注它们在社会伦理、安全性和偏见等方面的表现。本文探讨了 LLM 在偏见、毒性和越狱方面的最新研究进展。作者的核心观点是,LLM 仍存在一定的偏见问题,但相关公司正在努力改进,LLM 的整体发展趋势是向好的。作者首先介绍了 OpenAI、Google 等公司采取的伦理...
封面图

如何写好大模型提示词?来自大赛冠军的经验分享(进阶篇)

2024-01-22
阅读 14 分钟
3.7k
编者按:近期,如何通过 Prompt Engineering 最大程度发挥大模型的潜力已成为一个热点话题。人们越来越关注如何通过 Prompt Engineering 技术低成本地用好大模型。今天我们推荐的这篇文章,作者认为 Prompt Engineering 需要结合艺术与科学,需要在理解技术背景的同时,发挥创造力和战略思维。本系列文章详细介绍了作者...
封面图

如何写好大模型提示词?来自大赛冠军的经验分享(基础篇)

2024-01-17
阅读 7 分钟
2.3k
编者按:近期,如何通过 Prompt Engineering 最大程度发挥大模型的潜力已成为一个热点话题。人们越来越关注如何通过 Prompt Engineering 技术低成本地用好大模型。今天我们推荐的这篇文章,作者认为 Prompt Engineering 是一门融合了艺术和科学的学科,需要在理解技术背景的同时,发挥创造力和战略思维。本系列文章详细...
封面图

Prompt Engineering 可能会是 2024 年最热门的“编程语言”?

2024-01-16
阅读 13 分钟
720
编者按:“Prompt Engineering”是否已经过时?模型本身的能力是否已经足够,不再需要特意设计 prompt?我们今天为大家带来的文章,作者认为 Prompt Engineering 不会过时,相反随着模型能力的增强,编写高质量 prompt 的重要性也将继续增加。文章详细论点归纳:(1)大语言模型应被视为操作系统的内核,而 prompt 是调用其...
封面图

MoE模型性能还能更上一层楼?一次QLoRA微调实践

2024-01-10
阅读 14 分钟
741
编者按:最近,混合专家(Mixture of Experts,MoE)这种模型设计策略展现出了卓越的语言理解能力,如何在此基础上进一步提升 MoE 模型的性能成为业界热点。本文作者使用一种名为 QLoRA 的方法,通过量化和 LoRA 技术对 MoE 模型 Mixtral-8x7B 进行微调,以期大幅提高其性能。作者详细阐明这种方法的诸多优势,包括显著增强...

大模型Chatbots评估新视角:结合定性与程序方法的实践经验

2024-01-08
阅读 6 分钟
643
编者按: 随着大语言模型(LLM)在 Chatbots 领域的广泛应用,如何有效评估这些基于 LLM 的 Chatbots 的质量变得日益重要,这也是一个极具挑战性的问题。本文作者认为可以从质性评估(qualitative)和通过程序评估(programmatic)这两个维度对基于 LLM 的 Chatbots 进行评估。作者详细探讨了以下几个方面的内容:(1) 质性...
封面图

LLM评估:通过7大指标监测并评估大语言模型的表现

2023-12-29
阅读 10 分钟
1.3k
编者按: 如今,大模型及相关的生成式人工智能技术已经成为科技产业变革的新焦点,但大模型存在一些风险(容易产生偏见内容、虚假信息),其行为难以预测和控制。因此,如何持续监控和评估大模型行为以降低这些风险成为当下产学研各界的研究难点。本文作者通过分析 ChatGPT 在 35 天内对一组固定 prompt 的回答,探索了 ...
封面图

生成式 AI 的下一阶段将走向何方?

2023-12-25
阅读 4 分钟
541
编者按: 最近,随着 ChatGPT 的出现,很多人认为人工智能领域进入了大探索时代。然而这仅仅只是生成式 AI 发展的第一幕。我们今天要给大家带来的这篇文章认为,生成式 AI 已经进入第二幕,即整合时代,不同系统和企业之间将出现广泛合作,以定制解决方案将 AI 能力深度嵌入各行各业。文章详细阐述了第二幕的几个特征:(...
封面图

如何优化 RAG 系统的性能表现?10 条实用策略

2023-12-20
阅读 6 分钟
1.1k
编者按: 检索增强生成(RAG)系统最近备受关注,ChatGPT的火爆更让这类系统成为广泛讨论的热点。我们今天为大家带来的这篇文章,作者Matt Ambrogi的核心观点是:构建一个基本可用的RAG系统非常简单,但要使其达到实际生产可用的程度则异常困难,需要我们投入大量精力。为此,作者详细介绍了10种策略,包括清洗数据、尝试...
封面图

AI分布式训练:DDP (数据并行)技术详解与实战

2023-12-18
阅读 14 分钟
1.6k
编者按: 如今传统的单机单卡模式已经无法满足超大模型进行训练的要求,如何更好地、更轻松地利用多个 GPU 资源进行模型训练成为了人工智能领域的热门话题。我们今天为大家带来的这篇文章详细介绍了一种名为 DDP(Distributed Data Parallel)的并行训练技术,作者认为这项技术既高效又易于实现。文章要点如下:(1)DDP 的...
封面图

从信息量角度看人类智能与机器智能

2023-12-15
阅读 3 分钟
533
编者按: 近日,美国科技巨头 Google 宣布推出其认为规模最大、功能最强大的人工智能模型 Gemini,这种技术能够处理视频、音频和文本等不同内容形式的信息。那么机器学习模型与人类智能相比,谁的学习效率高? 许多人认为,人类大脑在学习效率上要远远优于我们目前训练的任何机器学习模型。面对这样的观点,本文作者进行...
封面图

Q-learning 入门:以 Frozen Lake 游戏环境为例

2023-12-11
阅读 20 分钟
1.3k
编者按:近年来,强化学习在游戏和机器人控制等领域取得了较大的进步。如何设计一种强化学习算法,使机器人或 Agent 能够在复杂环境中学习最优策略(Optimal Policy )并作出最优的决策,这成为一个重要课题。我们今天为大家带来的这篇文章,作者指出可以通过设计并训练 Q-learning 算法来解决强化学习中的决策问题。作...
封面图

GPU深度学习性能的三驾马车:Tensor Core、内存带宽与内存层次结构

2023-12-04
阅读 6 分钟
760
编者按:近年来,深度学习应用日益广泛,其需求也在快速增长。那么,我们该如何选择合适的 GPU 来获得最优的训练和推理性能呢?今天,我们为大家带来的这篇文章,作者的核心观点是:Tensor Core、内存带宽和内存层次结构是影响 GPU 深度学习性能的几个最关键因素。作者详细解析了矩阵乘法运算在深度学习中的重要性,以及...
封面图

语言模型文本处理基石:Tokenizer简明概述

2023-11-29
阅读 5 分钟
726
编者按:近年来,人工智能技术飞速发展,尤其是大型语言模型的问世,让 AI 写作、聊天等能力有了质的飞跃。如何更好地理解和利用这些生成式 AI,成为许多开发者和用户关心的问题。今天,我们推出的这篇文章有助于读者深入了解大语言模型的工作原理。作者指出,大语言模型的核心在于将文本转化为数字表征,这就需要介绍 t...
封面图

企业级应用场景中,LLM 的数据特性剖析及处理对策

2023-11-27
阅读 8 分钟
681
编者按:今年以来,大语言模型(LLM)在消费者(2C)市场崭露头角,同时也吸引了大量企业的关注。但是直接将这些面向消费者的模型引入企业环境,可能会面临一些风险。今天我们为大家带来的这篇文章,作者认为企业环境与消费者环境在数据方面存在着重要的差异,如果不认识到这些差异,面向企业环境的 LLM 项目就可能面临拖...
封面图

用好语言模型:temperature、top-p等核心参数解析

2023-11-23
阅读 8 分钟
4.3k
编者按:我们如何才能更好地控制大模型的输出?本文将介绍几个关键参数,帮助读者更好地理解和运用 temperature、top-p、top-k、frequency penalty 和 presence penalty 等常见参数,以优化语言模型的生成效果。文章详细解释了这些参数的作用机制以及如何在质量与多样性之间进行权衡。提高 temperature 可以增加多样性但...
封面图

Embedding技术与应用(4): Embedding应用工程探析

2023-11-20
阅读 10 分钟
665
编者按:随着互联网内容数量的急剧增长,个性化推荐已成为各大科技公司的核心竞争力之一。那么,如何构建一个可靠、高效的基于嵌入技术的推荐系统,使其能够在实际生产环境中正常运行呢?这是所有从业者都关心的问题。本文是Embedding技术与应用的最后一篇,探析 Embedding 应用工程的文章。作者认为,要让一个推荐系统...
封面图

轻松理解 Transformers (4) :Decoder 和 Output 部分

2023-11-13
阅读 4 分钟
1.4k
编者按:Transformers凭借其卓越的性能,已经成为自然语言处理领域的代表性模型架构。但是Transformers的内在机制却比较复杂,对许多读者来说可能还存在一定的难度。本系列对 Transformer各组件进行逐一剖析,我们可以更直观地理解这个模型架构的整体运行逻辑。本篇文章是《轻松理解Transformers》系列的最后一篇,主要...
封面图

Embedding技术与应用(3):Embeddings技术的实践应用

2023-11-08
阅读 10 分钟
702
编者按: IDP开启Embedding系列专栏,力图详细介绍Embedding的发展史、主要技术和应用。本文是《Embedding技术与应用系列》的第三篇,重点介绍 嵌入技术在生产环境中的应用效果到底如何。文章作者认为,嵌入技术可以有效地表示用户兴趣偏好,帮助推荐系统进行个性化内容推荐。作者详细分析了Pinterest、YouTube、Google ...
封面图

轻松理解 Transformers (3): Feed-Forward Layer部分

2023-11-06
阅读 6 分钟
1.8k
编者按:随着人工智能技术的不断发展Transformer架构已经成为了当今最为热门的话题之一。前馈层作为Transformer架构中的重要组成部分,其作用和特点备受关注。本文通过浅显易懂的语言和生活中的例子,帮助读者逐步理解Transformers中的前馈层。本文是Transformers系列的第三篇。作者的观点是:前馈层在Transformer架构中...
封面图

轻松理解 Transformers(2):Attention部分

2023-10-30
阅读 9 分钟
742
编者按:随着人工智能技术的不断发展,Transformers 模型架构已成为自然语言处理领域的重要基石。然而,许多人对其内部工作机制仍然感到困惑。本文通过浅显易懂的语言和生活中的例子,帮助读者逐步理解 Transformers 中最核心的 Attention 机制。本文是Transformers系列的第二篇。作者的核心观点是:Attention 机制是 Tr...
封面图

轻松理解 Transformers(1):Input部分

2023-10-24
阅读 9 分钟
964
编者按:Transformers 是人工智能领域近年来最引人瞩目的技术之一,它为语言生成模型的发展做出了巨大的贡献。随着大语言模型(LLM)的兴起,公众对其背后的技术原理也越来越感兴趣。但是由于Transformers本身具有一定的复杂性,想要真正理解其中的原理并不容易。今天,我们开始为大家带来了一系列以通俗易懂的语言解释T...
封面图

大模型的幻觉 (Hallucination) 因何而来?如何解决幻觉问题?

2023-10-23
阅读 8 分钟
2.8k
编者按:目前大模型仍然存在一个非常致命的缺陷——大模型的“幻觉”(Hallucination)问题。为什么 LLM 会出现幻觉?如何缓解这种情况?使用的数据集对此现象的影响几何?今天为大家带来的这篇文章将一一解答。作者首先分析了LLM中出现幻觉的原因,主要是由于训练数据的压缩以及信息的不一致、受限或过时造成的。之后,作者...
封面图