SF
IDP技术干货
IDP技术干货
注册登录
关注博客
注册登录
主页
关于
RSS
中型敏捷 GenAI 模型:面向企业垂直领域应用的实用型 AI
Baihai_IDP
2023-08-21
阅读 10 分钟
895
编者按:人工智能领域近年来模型规模不断增大,参数规模爆炸式增长。从 GPT-3 的 1,750 亿,再到传闻中的 GPT-4 可能高达惊人的 18,000 亿参数。然而,随着模型规模的不断膨胀,也出现了训练成本高昂、环境影响大、应用部署困难等问题。因此,业内开始反思超大模型的发展方向和意义。 在这样的背景下,“敏捷人工智能”...
落地大模型应知必会(3): 如何构建多任务的LLM应用
Baihai_IDP
2023-08-14
阅读 3 分钟
1k
编者按:今年以来,大语言模型(LLM)已被广泛应用于各种自然语言处理任务,也越来越多地被用于构建复杂的语言应用。但是构建多任务的 LLM 应用仍面临一定的挑战,需要解决任务组合和调控等问题。本文内容介绍了构建多任务 LLM 应用可能涉及的方方面面,包括如何设计并使用控制流程,如何测试代理等,对于那些希望设计出好...
大语言模型推理性能优化之七策
Baihai_IDP
2023-08-07
阅读 15 分钟
1.7k
编者按:随着大语言模型在自然语言处理中的广泛应用,如何提高其在实际部署中的推理速度成为一个非常关键的问题。本文详细介绍了当前提高大语言模型推理速度的七大策略,包括使用低精度计算、模型量化、使用适配器微调、采用模型剪枝、批量推理、多 GPU 并行和采用其他推理优化工具等方法。这些方法各有利弊,作者通过具...
RLHF 技术:如何能更有效?又有何局限性?
Baihai_IDP
2023-07-31
阅读 8 分钟
899
编者按:自ChatGPT推出后,基于人类反馈的强化学习(RLHF)技术便成为大模型构建和应用人员关注的热点。但该方法一些情况下效果却差强人意,有些基础模型经RLHF调优后反而表现更差。RLHF技术的适用性和具体操作细节似乎成谜。这篇文章探讨了基于人类反馈的强化学习(RLHF)的工作机制,分析了RLHF的三个关键组成部分:基础模...
LLM Data Pipelines: 解析大语言模型训练数据集处理的复杂流程
Baihai_IDP
2023-07-25
阅读 8 分钟
3.6k
编者按:在训练大语言模型的过程中,构建高质量的训练数据集是非常关键的一步,但关于构建大模型训练所需数据集的通用数据处理流程(Data pipelines)的相关资料极为稀少。本文主要介绍了基于Common Crawl数据集的数据处理流程。首先,文章概述了Common Crawl的不同数据格式WARC、WAT和WET的区别及应用场景。然后,文章详细...
大语言模型评估全解:评估流程、评估方法及常见问题
Baihai_IDP
2023-07-17
阅读 12 分钟
1.2k
编者按:随着对大语言模型(LLM)评估领域的深入研究,我们更加清楚地认识到全面理解评估过程中的问题对于有效评估LLM至关重要。本文探讨了机器学习模型评估中出现的常见问题,并深入研究了LLM对模型评估领域带来的重大挑战。在评估方法方面,我们将其划分为直接评估指标、基于辅助模型的评估和基于模型的评估。本文还强...
落地领域大模型应知必会(2): 轻量化微调
Baihai_IDP
2023-07-10
阅读 4 分钟
1.3k
编者按:在实际部署大模型的过程中可能会面临资源限制的问题。通过轻量化大模型微调技术,可以将大型预训练语言模型适配到特定领域、特定任务,并减小其模型尺寸和计算量需求,提高性能和效率。在上一篇文章中,我们分享了大语言模型的主要微调技术总览。接下来,本文将介绍轻量化大模型微调技术,重点关注Prompt Tuning...
落地领域大模型应知必会 (1) :主要微调方法总览
Baihai_IDP
2023-07-03
阅读 9 分钟
2.5k
编者按:随着大规模预训练模型的发展和应用,大模型微调技术已经在很多领域都有了突破性的进展,并推动了人工智能技术的发展与应用。本文会简要介绍上下文学习(in-context learning)的含义,并介绍对LLMs进行微调的各种可行方式。还能够帮助我们了解如何选择大语言模型的微调方法。快快阅读此文,开启一趟大模型微调学...
AI近十年盘点:纵览AI发展历程,探寻AI未来走向
Baihai_IDP
2023-06-25
阅读 10 分钟
1.2k
编者按:当我们回顾过去十年的人工智能发展历程时,可以看到一场现在还正在进行的变革,对我们的工作方式、商业运营模式和人际交往行为都产生了深远的影响。从2013年的AlexNet到变分自编码器,再到最近的生成式大模型,人工智能技术不断出现的突破性进展推动着整个领域的蓬勃发展。本文将为您深度解读这些关键性技术突破...
如何评估大型语言模型(LLM)?
Baihai_IDP
2023-06-19
阅读 4 分钟
2.1k
编者按:近期几乎每隔一段时间,就有新的大语言模型发布,但是当下仍然没有一个通用的标准来评估这些大型语言模型的质量,我们急需一个可靠的、综合的LLM评估框架。本文说明了为什么我们需要一个全面的大模型评估框架,并介绍了市面上这些现有的评估框架,同时指出这些框架存在的问题,最后说明如何评估大型语言模型(LL...
想要更好地理解大模型架构?从计算参数量快速入手
Baihai_IDP
2023-06-12
阅读 10 分钟
960
编者按:要理解一种新的机器学习架构(以及其他任何新技术),最有效的方法就是从头开始实现它。然而,还有一种更简单的方法——计算参数数量。通过计算参数数量,读者可以更好地理解模型架构,并检查其解决方案中是否存在未被发现的错误。该文章提供了精确的Transformers模型的参数量计算公式和不太准确的简略公式版本,...
大语言模型的创意能力到底几何?探索从GPT-2到GPT-4的演进
Baihai_IDP
2023-06-05
阅读 18 分钟
881
编者按:大语言模型可以提供许多创意性内容,如写诗、写小说等。那么到底应该如何评估大语言模型生成的创意性内容的水平呢?本文探讨了GPT-2到GPT-4的创造性,并分析了这些模型在不同创造性测试中的表现。作者使用了三种测试来衡量模型的创造性:Remote Associates Test、Alternate Uses Task和Divergent Association Ta...
究诸经典,探寻大模型演变之踪迹
Baihai_IDP
2023-05-29
阅读 13 分钟
805
编者按:在仅仅五年的时间里,大语言模型、transformers几乎完全改变了自然语言处理领域。为了便于快速、扎实、深入地学习大语言模型,本文整理一个简单的经典学术资料列表,供正在入门中的机器学习研究人员和开发者参考。以下是译文,Enjoy!
为什么我们拥有庞大的语言模型,而Vision Transformers的规模却很小?
Baihai_IDP
2023-05-22
阅读 7 分钟
1.1k
编者按:本文探讨了语言模型为何会比视觉模型的参数数量大得多的原因,并详细介绍了传统ViT训练方法在扩展时出现不稳定性的问题。为此,本文介绍了如何改进架构以实现扩展,并讨论了实现模型最优状态的方法。同时,如何在扩展模型时不产生“偏见”,也是本文重点关注的问题。很可能,我们很快就可以看到更大型的ViT(单独...
IDP LM - 助力企业快速构建专属大模型
Baihai_IDP
2023-05-16
阅读 1 分钟
1.1k
近期,我们正式推出了IDP LM ——专属大模型构建应用加速平台,IDP LM 将带您踏上自有可控AI大模型构建和应用的新篇章。01 IDP LM是什么IDP LM旨在为企业提供高效易用的大模型微调工具和服务,帮助企业更轻松地应对复杂的大模型微调和应用挑战。随着大模型技术的蓬勃发展,可控的领域垂直大模型的构建是未来大模型落地的主...
探索将大语言模型用作推荐系统
Baihai_IDP
2023-05-15
阅读 7 分钟
1.2k
编者按:目前大语言模型主要问答、对话等场景,进行被动回答。是否可以将大模型应用于推荐系统,进行主动推送呢?这篇文章回顾了可以将大模型作为推荐系统的理论基础,并重点描述了基于英文和阿拉伯语的购物数据集微调T5-large模型,探索将LLMs用作推荐系统的实践。同时本文还介绍了LLMs作为推荐系统的优点和缺点,并提...
All in AI,现在开始算不算太晚?
Baihai_IDP
2023-05-08
阅读 6 分钟
769
编者按:目前大模型近乎可以帮助人类处理方方面面的事情,如对话、写文章、写代码等等。在大模型“狂飙”趋势下,想要从事AI领域的小伙伴可能会犹疑:现在进入AI领域会不会已经太晚了?本文作者结合自身转型经历和对AI市场的研判,阐述了进入人工智能领域从来都不会太晚,There's no time like the present。本文还详述了...
Zero-ETL、大模型和数据工程的未来
Baihai_IDP
2023-05-04
阅读 6 分钟
1.1k
编者按:本文探讨了数据工程领域的未来趋势和挑战,以及其不断变化、甚至经常出现“重塑”的特点。在数据工程领域,大数据的性能、容量提升总是有一定的上限,每一次进步都会带来一定的技术提升,从而提高上限。但是很快我们就能到达这个上限,直到下一次技术跃升。以下是译文,Enjoy!
“烧钱”的大模型:初探成本拆解与推理优化方法
Baihai_IDP
2023-04-23
阅读 7 分钟
2.6k
编者按:大模型的成本问题一直以来是大家重点关注的问题,本文重点讨论了训练大型语言模型(LLMs)需要的成本,并简要介绍什么是LLM以及一些用于优化大模型推理表现的技术。虽然很难准确预测LLMs未来会怎么发展,但可以肯定,如果成本问题得到解决,LLM会成为我们生活中不可或缺的一部分!以下是译文,Enjoy!
IDPChat:探索基于LLaMA和Stable Diffusion的「开源」中文多模态AI大模型
Baihai_IDP
2023-04-17
阅读 2 分钟
1.2k
中文多模态模型 IDPChat 和大家见面了。随着GPT4、文心一言等的发布,预训练大模型正式开启由单模态向多模态模型演进。多模态的特性为语言模型带来更加丰富的应用场景。我们认为,未来的AI应用将主要以大模型为核心基石。而在大模型的领域,基于基础模型(Foundation model)构建领域或企业自有的大模型,会是近中期的重...
大模型的三大法宝:Finetune, Prompt Engineering, Reward
Baihai_IDP
2023-04-17
阅读 3 分钟
2.2k
编者按:基于基础通用模型构建领域或企业特有模型是目前趋势。本文简明介绍了最大化挖掘语言模型潜力的三大法宝——Finetune, Prompt Engineering和RLHF——的基本概念,并指出了大模型微调面临的工具层面的挑战。以下是译文,Enjoy!
科学的演变:从笛卡尔到生成式人工智能
Baihai_IDP
2023-04-10
阅读 6 分钟
1.1k
编者按:本文主要介绍了科学的演变历史,从笛卡尔到生成式人工智能。文章探讨了数学在验证科学原理中的作用,并介绍了新机器学习工具如何验证新的科学。文中提到,将生成式人工智能与Excel或iPhone进行比较是低估了这一新技术的潜在影响。生成型人工智能的效果很可能相当于电学(electricity)或香农的信息论(Shannon’s...
AI大模型已经出现不可预测的能力
Baihai_IDP
2023-04-03
阅读 6 分钟
966
编者按:日前,非盈利组织生命未来研究所发布了一封《暂停大型人工智能研究》的公开信,马斯克等千名科技人士进行了签名。虽然部分签署人的真实性存疑,但是大型语言模型(LLMs)的“涌现”能力确实可能会导致突然产生偏见、歧视和其他不可预测的风险。本文讨论了大型语言模型(LLMs)的“涌现”能力,并讨论LLMs的风险及减...
万字详解AI开发中的数据预处理(清洗)
Baihai_IDP
2023-03-27
阅读 9 分钟
1.5k
编者按:在现实生活中,大多数数据都需要进行清洗和预处理,以便在使用数据时达到最佳效果。机器学习流程只能处理数字,因此需要找到一种方法将非数字特征转化为数字表示。本文还介绍了三种缺失值类型:完全缺失、随机缺失和非随机缺失,并教授如何使用Python来检测和处理缺失值。通过阅读本文,我相信你将了解什么是数...
大语言模型(LLMs)和新兴机器学习技术栈
Baihai_IDP
2023-03-20
阅读 4 分钟
2.1k
编者按:过去,NLP开发人员依赖于文本分类、命名实体识别和命名实体消歧等技术栈来优化NLP任务。然而,随着大语言模型(LLM)的快速发展,新的技术栈开始出现,以支持和加速这些大型语言模型的实现和应用。让我们一起跟随Langchain的开发者,共同探讨LLM及NLP技术栈正在发生的变化,以及这一系列变化对开发者的意义。以下...
3分钟快速了解GPT-4
Baihai_IDP
2023-03-15
阅读 2 分钟
1.4k
说到GPT-4,可能你不知道,在北京时间今天凌晨OpenAI发布之前你可能已经用过了。根据这篇Bing Blog的内容,负责搜索和设备的微软公司副总裁 Yusuf Mehdi 指出五周前New Bing就是使用GPT-4了。那么下面简单介绍一下GPT-4。
LLaMA快速上手指南
Baihai_IDP
2023-03-13
阅读 3 分钟
9.7k
近期,Meta发布了人工智能大语言模型LLaMA,包含70亿、130亿、330亿和650亿这4种参数规模的模型。其中,最小的LLaMA 7B也经过了超1万亿个tokens的训练。
一万年太久,只争朝夕 | Foundation model的进展仍不够快
Baihai_IDP
2023-03-06
阅读 7 分钟
1.2k
编者按:如今根基模型(Foundation Models)的应用和相关创新正在快速涌现,但仍有很大的提升空间,目前还无法充分发挥根基模型的潜能、将其高效快速地应用于企业级AI应用中。根基模型的加速应用和落地,带动了基础设施和工具领域的创新。本期IDP Inspiration,我们为大家带来的是创投机构Madrona对于根基模型的发展研判...
人人看得懂的ChatGPT技术原理解析
Baihai_IDP
2023-02-27
阅读 6 分钟
2k
编者按:自ChatGPT面世以来,我们在热切挖掘其丰富应用的同时,也在孜孜探求其背后的工作原理。 今天我们为大家带来的文章,深入浅出地阐释了ChatGPT背后的技术原理,没有NLP或算法经验的小伙伴,也可以轻松理解ChatGPT是如何工作的。以下是译文,Enjoy!
Prompt Learning: ChatGPT也在用的NLP新范式
Baihai_IDP
2023-02-20
阅读 8 分钟
1.8k
编者按:自GPT-3以来,大语言模型进入了新的训练范式,即“预训练模型+Promp learning”。在这一新的范式下,大语言模型呈现出惊人的zero-shot和few-shot能力,使用较少的训练数据来适应新的任务形式。最近火爆出圈的ChatGPT是利用这一方式。简单理解Prompt learning,其核心就是以特定的模板,将下游任务的数据转成自然语...
1
2
3
4
(current)
5
下一页
上一页
4
(current)
下一页