想要更好地理解大模型架构?从计算参数量快速入手

2023-06-12
阅读 10 分钟
714
编者按:要理解一种新的机器学习架构(以及其他任何新技术),最有效的方法就是从头开始实现它。然而,还有一种更简单的方法——计算参数数量。通过计算参数数量,读者可以更好地理解模型架构,并检查其解决方案中是否存在未被发现的错误。该文章提供了精确的Transformers模型的参数量计算公式和不太准确的简略公式版本,...
封面图

大语言模型的创意能力到底几何?探索从GPT-2到GPT-4的演进

2023-06-05
阅读 18 分钟
693
编者按:大语言模型可以提供许多创意性内容,如写诗、写小说等。那么到底应该如何评估大语言模型生成的创意性内容的水平呢?本文探讨了GPT-2到GPT-4的创造性,并分析了这些模型在不同创造性测试中的表现。作者使用了三种测试来衡量模型的创造性:Remote Associates Test、Alternate Uses Task和Divergent Association Ta...
封面图

究诸经典,探寻大模型演变之踪迹

2023-05-29
阅读 13 分钟
683
编者按:在仅仅五年的时间里,大语言模型、transformers几乎完全改变了自然语言处理领域。为了便于快速、扎实、深入地学习大语言模型,本文整理一个简单的经典学术资料列表,供正在入门中的机器学习研究人员和开发者参考。以下是译文,Enjoy!
封面图

为什么我们拥有庞大的语言模型,而Vision Transformers的规模却很小?

2023-05-22
阅读 7 分钟
905
编者按:本文探讨了语言模型为何会比视觉模型的参数数量大得多的原因,并详细介绍了传统ViT训练方法在扩展时出现不稳定性的问题。为此,本文介绍了如何改进架构以实现扩展,并讨论了实现模型最优状态的方法。同时,如何在扩展模型时不产生“偏见”,也是本文重点关注的问题。很可能,我们很快就可以看到更大型的ViT(单独...
封面图

IDP LM - 助力企业快速构建专属大模型

2023-05-16
阅读 1 分钟
927
近期,我们正式推出了IDP LM ——专属大模型构建应用加速平台,IDP LM 将带您踏上自有可控AI大模型构建和应用的新篇章。01 IDP LM是什么IDP LM旨在为企业提供高效易用的大模型微调工具和服务,帮助企业更轻松地应对复杂的大模型微调和应用挑战。随着大模型技术的蓬勃发展,可控的领域垂直大模型的构建是未来大模型落地的主...
封面图

探索将大语言模型用作推荐系统

2023-05-15
阅读 7 分钟
1k
编者按:目前大语言模型主要问答、对话等场景,进行被动回答。是否可以将大模型应用于推荐系统,进行主动推送呢?这篇文章回顾了可以将大模型作为推荐系统的理论基础,并重点描述了基于英文和阿拉伯语的购物数据集微调T5-large模型,探索将LLMs用作推荐系统的实践。同时本文还介绍了LLMs作为推荐系统的优点和缺点,并提...
封面图

All in AI,现在开始算不算太晚?

2023-05-08
阅读 6 分钟
632
编者按:目前大模型近乎可以帮助人类处理方方面面的事情,如对话、写文章、写代码等等。在大模型“狂飙”趋势下,想要从事AI领域的小伙伴可能会犹疑:现在进入AI领域会不会已经太晚了?本文作者结合自身转型经历和对AI市场的研判,阐述了进入人工智能领域从来都不会太晚,There's no time like the present。本文还详述了...
封面图

Zero-ETL、大模型和数据工程的未来

2023-05-04
阅读 6 分钟
920
编者按:本文探讨了数据工程领域的未来趋势和挑战,以及其不断变化、甚至经常出现“重塑”的特点。在数据工程领域,大数据的性能、容量提升总是有一定的上限,每一次进步都会带来一定的技术提升,从而提高上限。但是很快我们就能到达这个上限,直到下一次技术跃升。以下是译文,Enjoy!
封面图

“烧钱”的大模型:初探成本拆解与推理优化方法

2023-04-23
阅读 7 分钟
1.5k
编者按:大模型的成本问题一直以来是大家重点关注的问题,本文重点讨论了训练大型语言模型(LLMs)需要的成本,并简要介绍什么是LLM以及一些用于优化大模型推理表现的技术。虽然很难准确预测LLMs未来会怎么发展,但可以肯定,如果成本问题得到解决,LLM会成为我们生活中不可或缺的一部分!以下是译文,Enjoy!
封面图

IDPChat:探索基于LLaMA和Stable Diffusion的「开源」中文多模态AI大模型

2023-04-17
阅读 2 分钟
1k
中文多模态模型 IDPChat 和大家见面了。随着GPT4、文心一言等的发布,预训练大模型正式开启由单模态向多模态模型演进。多模态的特性为语言模型带来更加丰富的应用场景。我们认为,未来的AI应用将主要以大模型为核心基石。而在大模型的领域,基于基础模型(Foundation model)构建领域或企业自有的大模型,会是近中期的重...
封面图

大模型的三大法宝:Finetune, Prompt Engineering, Reward

2023-04-17
阅读 3 分钟
1.6k
编者按:基于基础通用模型构建领域或企业特有模型是目前趋势。本文简明介绍了最大化挖掘语言模型潜力的三大法宝——Finetune, Prompt Engineering和RLHF——的基本概念,并指出了大模型微调面临的工具层面的挑战。以下是译文,Enjoy!
封面图

科学的演变:从笛卡尔到生成式人工智能

2023-04-10
阅读 6 分钟
955
编者按:本文主要介绍了科学的演变历史,从笛卡尔到生成式人工智能。文章探讨了数学在验证科学原理中的作用,并介绍了新机器学习工具如何验证新的科学。文中提到,将生成式人工智能与Excel或iPhone进行比较是低估了这一新技术的潜在影响。生成型人工智能的效果很可能相当于电学(electricity)或香农的信息论(Shannon’s...
封面图

AI大模型已经出现不可预测的能力

2023-04-03
阅读 6 分钟
830
编者按:日前,非盈利组织生命未来研究所发布了一封《暂停大型人工智能研究》的公开信,马斯克等千名科技人士进行了签名。虽然部分签署人的真实性存疑,但是大型语言模型(LLMs)的“涌现”能力确实可能会导致突然产生偏见、歧视和其他不可预测的风险。本文讨论了大型语言模型(LLMs)的“涌现”能力,并讨论LLMs的风险及减...
封面图

万字详解AI开发中的数据预处理(清洗)

2023-03-27
阅读 9 分钟
1.2k
编者按:在现实生活中,大多数数据都需要进行清洗和预处理,以便在使用数据时达到最佳效果。机器学习流程只能处理数字,因此需要找到一种方法将非数字特征转化为数字表示。本文还介绍了三种缺失值类型:完全缺失、随机缺失和非随机缺失,并教授如何使用Python来检测和处理缺失值。通过阅读本文,我相信你将了解什么是数...
封面图

大语言模型(LLMs)和新兴机器学习技术栈

2023-03-20
阅读 4 分钟
1.8k
编者按:过去,NLP开发人员依赖于文本分类、命名实体识别和命名实体消歧等技术栈来优化NLP任务。然而,随着大语言模型(LLM)的快速发展,新的技术栈开始出现,以支持和加速这些大型语言模型的实现和应用。让我们一起跟随Langchain的开发者,共同探讨LLM及NLP技术栈正在发生的变化,以及这一系列变化对开发者的意义。以下...
封面图

3分钟快速了解GPT-4

2023-03-15
阅读 2 分钟
1.2k
说到GPT-4,可能你不知道,在北京时间今天凌晨OpenAI发布之前你可能已经用过了。根据这篇Bing Blog的内容,负责搜索和设备的微软公司副总裁 Yusuf Mehdi 指出五周前New Bing就是使用GPT-4了。那么下面简单介绍一下GPT-4。

LLaMA快速上手指南

2023-03-13
阅读 3 分钟
9.2k
近期,Meta发布了人工智能大语言模型LLaMA,包含70亿、130亿、330亿和650亿这4种参数规模的模型。其中,最小的LLaMA 7B也经过了超1万亿个tokens的训练。
封面图

一万年太久,只争朝夕 | Foundation model的进展仍不够快

2023-03-06
阅读 7 分钟
994
编者按:如今根基模型(Foundation Models)的应用和相关创新正在快速涌现,但仍有很大的提升空间,目前还无法充分发挥根基模型的潜能、将其高效快速地应用于企业级AI应用中。根基模型的加速应用和落地,带动了基础设施和工具领域的创新。本期IDP Inspiration,我们为大家带来的是创投机构Madrona对于根基模型的发展研判...
封面图

人人看得懂的ChatGPT技术原理解析

2023-02-27
阅读 6 分钟
1.4k
编者按:自ChatGPT面世以来,我们在热切挖掘其丰富应用的同时,也在孜孜探求其背后的工作原理。 今天我们为大家带来的文章,深入浅出地阐释了ChatGPT背后的技术原理,没有NLP或算法经验的小伙伴,也可以轻松理解ChatGPT是如何工作的。以下是译文,Enjoy!
封面图

Prompt Learning: ChatGPT也在用的NLP新范式

2023-02-20
阅读 8 分钟
1.6k
编者按:自GPT-3以来,大语言模型进入了新的训练范式,即“预训练模型+Promp learning”。在这一新的范式下,大语言模型呈现出惊人的zero-shot和few-shot能力,使用较少的训练数据来适应新的任务形式。最近火爆出圈的ChatGPT是利用这一方式。简单理解Prompt learning,其核心就是以特定的模板,将下游任务的数据转成自然语...
封面图

解析机器学习中的数据漂移问题

2023-02-06
阅读 9 分钟
1.1k
编者按:当模型在生产中呈现的输入与训练期间提供的分布不对应时,通常会发生数据漂移。Vatsal P.的这篇文章,介绍了如何通过漂移指标直观了解数据漂移程度,并n通过一个使用合成数据的例子来展示如何利用Python计算数据随时间的漂移指标。以下是译文,Enjoy!
封面图

AIGC神器CLIP:技术详解及应用示例

2023-01-15
阅读 9 分钟
3.3k
编者按:上一期,我们介绍了Diffusion模型的发展历程、核心原理及其对AIGC发展的推动作用。本期,我们将共同走进另一项AI重要突破——CLIP,著名的DALLE和Stable Diffusion均采用了CLIP哦。
封面图

走进AI图像生成核心技术 - Diffusion

2023-01-10
阅读 4 分钟
1.6k
编者按:2022年,Diffusion model成为图像生成领域的重要发现,推动了AI绘画应用的爆发式发展。Diffusion模型相较于其他的图像生成模型,在所需数据更少的背景下,图像生成效果有明显提升。引用本期IDP Inspiration,我们将和大家一起走进Diffusion的发展史。引用以下是译文,Enjoy!
封面图

AI 2022:浪潮奔涌,百舸争流

2022-12-26
阅读 3 分钟
864
编者按:2022年已接近尾声,但技术的发展永不落幕。许多人说,2022是生成式AI的一年。这一年里,我们见证了Stable Diffusion和DALL-E2等AI图像编辑/绘画工具的爆发,也目睹了ChatGPT狂热席卷全球。但AI技术和产业的发展,远不仅仅是聚光灯下的生成式AI / AIGC 可以全权代表的。我们为大家精选了三篇相对全面客观的深度回...
封面图

Transformer:让ChatGPT站在肩膀上的巨人?

2022-12-19
阅读 5 分钟
1.8k
编者按:ChatGPT以近乎狂热之势席卷了全网。在沉浸于“ChatGPT潮”的同时,让我们也来深入了解一下它和基石技术 - 大模型 Transformer吧。Dale Markowitz的这篇文章为我们深入浅出地介绍了Transformer的重要性、创新性、应用领域等。以下是译文,Enjoy!
封面图

超参数优化完整指南

2022-12-12
阅读 6 分钟
1.4k
编者按:今天为大家带来的一份超全的超参数调优指南,可谓一文在手,超参数调优无敌手。本文主要介绍了超参数调优的基本概念、常用方法和算法,以及超参数调优的工具推荐。小编温馨提示,全文阅读预计需要20-30分钟,可以先收藏哦!话不多说,开启超参数调优之旅吧,Enjoy!
封面图

理解DALL·E 2, Stable Diffusion和 Midjourney工作原理

2022-12-05
阅读 4 分钟
2.5k
编者按:随着AIGC的兴起,各位小伙伴们对文生图工具DALL-E 2、Stable Diffusion和Midjourney一定并不陌生。本期IDP Inspiration,小白将和大家一同走进这三者背后的技术原理,一探究竟。以下是译文,Enjoy!
封面图

卡塔尔世界杯中用到了哪些AI技术?

2022-12-04
阅读 3 分钟
845
在卡塔尔多哈的974体育场前,足球迷在一个巨大的世界杯奖杯复制品旁合影。人工智能将是今年比赛的一个重要组成部分。(David Gannon/AFP/Getty Images)
封面图

联通DataOps和MLOps:将机器学习推理作为新的数据源

2022-11-30
阅读 4 分钟
1k
编者按:随着大数据和AI的关注重点转向工程化和能效,DataOps和MLOps逐渐兴起。DataOps侧重于提高数据分析质量、缩短数据交付周期,MLOps侧重于快速交付AI模型。数据是AI开发生产的重要元素,在数据驱动的AI时代,割裂的DataOps和MLOps是否依然能满足企业数据挖掘和AI应用的需求? 带着这个疑问,IDP和大家一起跟随资深AI...
封面图

常用AI/机器学习模型可解释技术与工具

2022-11-30
阅读 6 分钟
1.2k
编者按:随着AI模型日益复杂,模型可解释的重要性和挑战日益凸显。通过模型可解释,可以指导特征工程的优化、检测偏差、增强模型使用者对模型的可信度。Anaconda资深数据科学家Sophia Yang总结了8种模型可解释常用技术和工具,对其主要特征进行了概述。以下是译文,Enjoy!
封面图