IDP技术干货 - SegmentFault 思否

RAG (检索增强生成)技术详解：揭秘基于垂直领域专有数据的Chatbots是如何实现的

2023-10-16

阅读 10 分钟

1.7k

编者按：相信很多人都对Chatbots背后的技术原理很感兴趣，其实Chatbots并非通过“魔法”与我们交流，而是依靠一种被称为检索增强生成（RAG）的技术。文章详细梳理了 RAG 技术的具体实现原理。首先，RAG 将用户输入的问题与知识库中的私有数据进行匹配，获取相关知识片段。然后，通过预训练的大语言模型，用提取到的知识片...

封面图

Embedding技术与应用 (2) ：神经网络的发展及现代Embedding方法简介

2023-10-07

阅读 11 分钟

1.2k

编者按：IDP开启Embedding系列专栏，详细介绍Embedding的发展史、主要技术和应用。本文是《Embedding技术与应用系列》的第二篇，重点介绍神经网络的发展历程及其技术架构，剖析了嵌入技术与这些神经网络（Transformer、BERT和GPT等）的关系。正如OpenAI去年年底推出的ChatGPT在对话领域的重要地位，嵌入技术正在成为人工...

封面图

Embeddig技术与应用 (1) ：Embedding技术发展概述及Word2Vec

2023-09-25

阅读 6 分钟

1.7k

编者按：嵌入(Embedding)是机器学习中一种将高维稀疏向量转换为低维稠密向量的技术。其通常用于处理自然语言、图像等高维离散数据。嵌入能够有效地解决维度灾难问题，减少存储和计算成本，同时提高模型的表达能力。我们还可以通过得到的嵌入向量进行语义相似度计算、推荐系统、分类任务等多种应用。嵌入还可以用于处理非...

封面图

基于Falcon-7B模型的QLoRA微调实操：构建面向心理健康领域的Chatbot

2023-09-18

阅读 15 分钟

1k

编者按：在之前的系列文章中，我们介绍了大模型的原理和微调落地的理论方法。本期文章，我们将以实际场景为例，详细介绍微调的实践流程和相关代码。作者详细介绍了如何使用 QLoRA 技术针对 Falcon-7B 大语言模型进行微调，使之在消费级 GPU 上进行微调而不会出现out of memory（内存不足错误），从而创造一个能够准确、...

封面图

微调语言模型前，需要考虑这三个关键方面

2023-09-18

阅读 7 分钟

994

编者按：随着大语言模型(LLM)的迅速发展，越来越多团队希望针对特定领域进行模型微调。但是实践运用中总是存在一些困难，直接应用并不总是能达到理想效果。本文着重探讨了三个关键问题:利用强大模型(如ChatGPT)的输出结果来微调较弱模型是否有效？如何选择是采用低成本的上下文学习还是对模型进行微调？如何处理超过模型...

封面图

当红语言模型利器：深度解析向量数据库技术及其应用

2023-09-11

阅读 10 分钟

925

编者按：随着大语言模型的广泛应用，如何存储和高效检索这些模型产生的大量向量表示成为一个较为关键的问题。本文深入探讨了向量数据库在提升语言模型应用性能方面的作用，并介绍了不同类型向量数据库的特点。本文以简明扼要的方式全面概述了向量数据库的工作机制、应用场景和评估方法，对于在生产环境中应用语言模型的...

封面图

为什么企业需要私有化专属大模型

2023-09-04

阅读 4 分钟

1.4k

编者按：8月29日凌晨，OpenAI在官网宣布，推出企业版ChatGPT（ChatGPT Enterprise）。前不久，OpenAI又刚刚发布了针对企业的GPT-3.5 Turbo微调功能。因而引发了一场热烈的讨论——是否仍需要私有化的大模型？我们今天为大家带来的文章，作者探讨了与仅通过 OpenAI 等公司的 API 使用 LLM 相比，私有化部署大模型的优势。有...

封面图

如何有效进行RLHF的数据标注？

2023-08-28

阅读 10 分钟

1.6k

编者按：随着大语言模型在自然语言处理领域的广泛应用，如何从人类反馈进行强化学习（RLHF）已成为一个重要的技术挑战。并且RLHF需要大量高质量的人工数据标注，这是一个非常费力的过程。本文作者在数据标注领域具有丰富经验，他在本文深入探讨了RLHF过程中有关数据标注的关键问题。作者首先介绍了数据标注的基本要素，...

封面图

中型敏捷 GenAI 模型：面向企业垂直领域应用的实用型 AI

2023-08-21

阅读 10 分钟

1.2k

编者按：人工智能领域近年来模型规模不断增大，参数规模爆炸式增长。从 GPT-3 的 1,750 亿，再到传闻中的 GPT-4 可能高达惊人的 18,000 亿参数。然而，随着模型规模的不断膨胀，也出现了训练成本高昂、环境影响大、应用部署困难等问题。因此，业内开始反思超大模型的发展方向和意义。在这样的背景下，“敏捷人工智能”...

封面图

落地大模型应知必会(3): 如何构建多任务的LLM应用

2023-08-14

阅读 3 分钟

1.3k

编者按：今年以来，大语言模型(LLM)已被广泛应用于各种自然语言处理任务，也越来越多地被用于构建复杂的语言应用。但是构建多任务的 LLM 应用仍面临一定的挑战，需要解决任务组合和调控等问题。本文内容介绍了构建多任务 LLM 应用可能涉及的方方面面，包括如何设计并使用控制流程，如何测试代理等，对于那些希望设计出好...

封面图

大语言模型推理性能优化之七策

2023-08-07

阅读 15 分钟

2.1k

编者按：随着大语言模型在自然语言处理中的广泛应用，如何提高其在实际部署中的推理速度成为一个非常关键的问题。本文详细介绍了当前提高大语言模型推理速度的七大策略，包括使用低精度计算、模型量化、使用适配器微调、采用模型剪枝、批量推理、多 GPU 并行和采用其他推理优化工具等方法。这些方法各有利弊，作者通过具...

封面图

RLHF 技术：如何能更有效？又有何局限性？

2023-07-31

阅读 8 分钟

1.1k

编者按：自ChatGPT推出后，基于人类反馈的强化学习(RLHF)技术便成为大模型构建和应用人员关注的热点。但该方法一些情况下效果却差强人意，有些基础模型经RLHF调优后反而表现更差。RLHF技术的适用性和具体操作细节似乎成谜。这篇文章探讨了基于人类反馈的强化学习(RLHF)的工作机制，分析了RLHF的三个关键组成部分：基础模...

封面图

LLM Data Pipelines: 解析大语言模型训练数据集处理的复杂流程

2023-07-25

阅读 8 分钟

4.4k

编者按：在训练大语言模型的过程中,构建高质量的训练数据集是非常关键的一步，但关于构建大模型训练所需数据集的通用数据处理流程（Data pipelines)的相关资料极为稀少。本文主要介绍了基于Common Crawl数据集的数据处理流程。首先,文章概述了Common Crawl的不同数据格式WARC、WAT和WET的区别及应用场景。然后,文章详细...

封面图

大语言模型评估全解：评估流程、评估方法及常见问题

2023-07-17

阅读 12 分钟

1.5k

编者按：随着对大语言模型（LLM）评估领域的深入研究，我们更加清楚地认识到全面理解评估过程中的问题对于有效评估LLM至关重要。本文探讨了机器学习模型评估中出现的常见问题，并深入研究了LLM对模型评估领域带来的重大挑战。在评估方法方面，我们将其划分为直接评估指标、基于辅助模型的评估和基于模型的评估。本文还强...

封面图

落地领域大模型应知必会(2): 轻量化微调

2023-07-10

阅读 4 分钟

1.5k

编者按：在实际部署大模型的过程中可能会面临资源限制的问题。通过轻量化大模型微调技术，可以将大型预训练语言模型适配到特定领域、特定任务，并减小其模型尺寸和计算量需求，提高性能和效率。在上一篇文章中，我们分享了大语言模型的主要微调技术总览。接下来，本文将介绍轻量化大模型微调技术，重点关注Prompt Tuning...

封面图

落地领域大模型应知必会 (1) ：主要微调方法总览

2023-07-03

阅读 9 分钟

2.7k

编者按：随着大规模预训练模型的发展和应用，大模型微调技术已经在很多领域都有了突破性的进展，并推动了人工智能技术的发展与应用。本文会简要介绍上下文学习（in-context learning）的含义，并介绍对LLMs进行微调的各种可行方式。还能够帮助我们了解如何选择大语言模型的微调方法。快快阅读此文，开启一趟大模型微调学...

封面图

AI近十年盘点：纵览AI发展历程，探寻AI未来走向

2023-06-25

阅读 10 分钟

1.5k

编者按：当我们回顾过去十年的人工智能发展历程时，可以看到一场现在还正在进行的变革，对我们的工作方式、商业运营模式和人际交往行为都产生了深远的影响。从2013年的AlexNet到变分自编码器，再到最近的生成式大模型，人工智能技术不断出现的突破性进展推动着整个领域的蓬勃发展。本文将为您深度解读这些关键性技术突破...

封面图

如何评估大型语言模型（LLM）？

2023-06-19

阅读 4 分钟

2.3k

编者按：近期几乎每隔一段时间，就有新的大语言模型发布，但是当下仍然没有一个通用的标准来评估这些大型语言模型的质量，我们急需一个可靠的、综合的LLM评估框架。本文说明了为什么我们需要一个全面的大模型评估框架，并介绍了市面上这些现有的评估框架，同时指出这些框架存在的问题，最后说明如何评估大型语言模型（LL...

封面图

想要更好地理解大模型架构？从计算参数量快速入手

2023-06-12

阅读 10 分钟

1.2k

编者按：要理解一种新的机器学习架构（以及其他任何新技术），最有效的方法就是从头开始实现它。然而，还有一种更简单的方法——计算参数数量。通过计算参数数量，读者可以更好地理解模型架构，并检查其解决方案中是否存在未被发现的错误。该文章提供了精确的Transformers模型的参数量计算公式和不太准确的简略公式版本，...

封面图

大语言模型的创意能力到底几何？探索从GPT-2到GPT-4的演进

2023-06-05

阅读 18 分钟

1.1k

编者按：大语言模型可以提供许多创意性内容，如写诗、写小说等。那么到底应该如何评估大语言模型生成的创意性内容的水平呢？本文探讨了GPT-2到GPT-4的创造性，并分析了这些模型在不同创造性测试中的表现。作者使用了三种测试来衡量模型的创造性：Remote Associates Test、Alternate Uses Task和Divergent Association Ta...

封面图

究诸经典，探寻大模型演变之踪迹

2023-05-29

阅读 13 分钟

950

编者按：在仅仅五年的时间里，大语言模型、transformers几乎完全改变了自然语言处理领域。为了便于快速、扎实、深入地学习大语言模型，本文整理一个简单的经典学术资料列表，供正在入门中的机器学习研究人员和开发者参考。以下是译文，Enjoy!

封面图

为什么我们拥有庞大的语言模型，而Vision Transformers的规模却很小？

2023-05-22

阅读 7 分钟

1.2k

编者按：本文探讨了语言模型为何会比视觉模型的参数数量大得多的原因，并详细介绍了传统ViT训练方法在扩展时出现不稳定性的问题。为此，本文介绍了如何改进架构以实现扩展，并讨论了实现模型最优状态的方法。同时，如何在扩展模型时不产生“偏见”，也是本文重点关注的问题。很可能，我们很快就可以看到更大型的ViT（单独...

封面图

IDP LM - 助力企业快速构建专属大模型

2023-05-16

阅读 1 分钟

1.4k

近期，我们正式推出了IDP LM ——专属大模型构建应用加速平台，IDP LM 将带您踏上自有可控AI大模型构建和应用的新篇章。01 IDP LM是什么IDP LM旨在为企业提供高效易用的大模型微调工具和服务，帮助企业更轻松地应对复杂的大模型微调和应用挑战。随着大模型技术的蓬勃发展，可控的领域垂直大模型的构建是未来大模型落地的主...

封面图

探索将大语言模型用作推荐系统

2023-05-15

阅读 7 分钟

1.4k

编者按：目前大语言模型主要问答、对话等场景，进行被动回答。是否可以将大模型应用于推荐系统，进行主动推送呢？这篇文章回顾了可以将大模型作为推荐系统的理论基础，并重点描述了基于英文和阿拉伯语的购物数据集微调T5-large模型，探索将LLMs用作推荐系统的实践。同时本文还介绍了LLMs作为推荐系统的优点和缺点，并提...

封面图

All in AI，现在开始算不算太晚？

2023-05-08

阅读 6 分钟

916

编者按：目前大模型近乎可以帮助人类处理方方面面的事情，如对话、写文章、写代码等等。在大模型“狂飙”趋势下，想要从事AI领域的小伙伴可能会犹疑：现在进入AI领域会不会已经太晚了？本文作者结合自身转型经历和对AI市场的研判，阐述了进入人工智能领域从来都不会太晚，There's no time like the present。本文还详述了...

封面图

Zero-ETL、大模型和数据工程的未来

2023-05-04

阅读 6 分钟

1.3k

编者按：本文探讨了数据工程领域的未来趋势和挑战，以及其不断变化、甚至经常出现“重塑”的特点。在数据工程领域，大数据的性能、容量提升总是有一定的上限，每一次进步都会带来一定的技术提升，从而提高上限。但是很快我们就能到达这个上限，直到下一次技术跃升。以下是译文，Enjoy!

封面图

“烧钱”的大模型：初探成本拆解与推理优化方法

2023-04-23

阅读 7 分钟

3.3k

编者按：大模型的成本问题一直以来是大家重点关注的问题，本文重点讨论了训练大型语言模型（LLMs）需要的成本，并简要介绍什么是LLM以及一些用于优化大模型推理表现的技术。虽然很难准确预测LLMs未来会怎么发展，但可以肯定，如果成本问题得到解决，LLM会成为我们生活中不可或缺的一部分！以下是译文，Enjoy!

封面图

IDPChat：探索基于LLaMA和Stable Diffusion的「开源」中文多模态AI大模型

2023-04-17

阅读 2 分钟

1.3k

中文多模态模型 IDPChat 和大家见面了。随着GPT4、文心一言等的发布，预训练大模型正式开启由单模态向多模态模型演进。多模态的特性为语言模型带来更加丰富的应用场景。我们认为，未来的AI应用将主要以大模型为核心基石。而在大模型的领域，基于基础模型（Foundation model）构建领域或企业自有的大模型，会是近中期的重...

封面图

大模型的三大法宝：Finetune, Prompt Engineering, Reward

2023-04-17

阅读 3 分钟

2.5k

编者按：基于基础通用模型构建领域或企业特有模型是目前趋势。本文简明介绍了最大化挖掘语言模型潜力的三大法宝——Finetune, Prompt Engineering和RLHF——的基本概念，并指出了大模型微调面临的工具层面的挑战。以下是译文，Enjoy!

封面图

科学的演变：从笛卡尔到生成式人工智能

2023-04-10

阅读 6 分钟

1.3k

编者按：本文主要介绍了科学的演变历史，从笛卡尔到生成式人工智能。文章探讨了数学在验证科学原理中的作用，并介绍了新机器学习工具如何验证新的科学。文中提到，将生成式人工智能与Excel或iPhone进行比较是低估了这一新技术的潜在影响。生成型人工智能的效果很可能相当于电学（electricity）或香农的信息论（Shannon’s...

封面图

5

5