OpenAI创始人:GPT-4的研究起源和构建心法

2023-03-20
阅读 9 分钟
918
三十年前,互联网(Web 1.0)时代开启。人们只能在笨重的电脑上用鼠标点击由HTML编写的网页文本,随后开始支持插入图片,可以上传视频,于是有了网络新闻、搜索、电子邮件、短信、网游......互联网带来了全新的商业模式,深刻改变了人们的生产生活。

GPT-4问世;LLM训练指南;纯浏览器跑Stable Diffusion

2023-03-15
阅读 4 分钟
1.5k
GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力:更具创造性和协作性;可以接受图像作为输入并生成说明文字、分类和分析;能够处理超过 25,000 个单词的文本,允许长文内容创建、扩展对话以及文档搜索和分析等用例。

NCCL源码解析①:初始化及ncclUniqueId的产生

2023-03-15
阅读 14 分钟
1k
作者|KIDGINBROOK更新|潘丽晨NCCL是英伟达开源的GPU通信库,支持集合通信和点对点通信。看下官方给的一个demo: {代码...} 在上边的示例中,rank0会执行ncclGetUniqueId获取Id,然后通过mpi广播给其他rank,接下来看下UniqueId是怎么产生的。 {代码...} 然后看下ncclInit。首先执行initEnv,设置环境变量。然后执行ini...

GPT-3/ChatGPT复现的经验教训

2023-03-06
阅读 12 分钟
754
作者:杨靖锋,现任亚马逊科学家,本科毕业于北大,硕士毕业于佐治亚理工学院,师从 Stanford 杨笛一教授。译文由杨昊桐翻译,王骁修订。感谢靳弘业对第一版稿件的建议,感谢陈三星,符尧的讨论和建议。(本文经授权后由OneFlow发布。原文:[链接])

一块GPU搞定ChatGPT;ML系统入坑指南;理解GPU底层架构

2023-02-27
阅读 4 分钟
634
在发展技术,让大模型掌握更多能力的同时,也有人在尝试降低AI所需的算力资源。最近,一种名为FlexGen的技术因为「一块RTX 3090跑ChatGPT体量模型」而获得了人们的关注。

ChatGPT背后:从0到1,OpenAI的创立之路

2023-02-21
阅读 12 分钟
639
ChatGPT一出,OpenAI名声大震,CEO Sam Altman([链接])也成为聚光灯下的C位主角,有些报道甚至开始了对他的“造神”运动。年少成名,他不到30岁就成为YC总裁,从2019年GPT-3开始,他开始主导OpenAI的运营事务,并取得了如今的非凡成就。他擅长将企业发展从1放大到1000,但自OpenAI创立到GPT-2的发布期间,但自OpenAI创立...

开源ChatGPT要来了;软件2.0智能革命;GLM、Diffusion模型大加速

2023-02-11
阅读 4 分钟
1.1k
新年伊始,大模型的话题热度不减。ChatGPT展现的惊人能力将大模型研究和应用热度推向高潮,人们激烈讨论着这个高级“物种”的推出意味着什么。

OneFlow v0.9.0正式发布

2023-01-25
阅读 3 分钟
803
今天是 OneFlow 开源的第 903 天,OneFlow v0.9.0 正式发布。本次更新包含 640 个 commit,完整更新列表请查看链接:[链接],欢迎下载体验新版本,期待你的反馈。 

“零”代码改动,静态编译让太乙Stable Diffusion推理速度翻倍

2023-01-19
阅读 4 分钟
1.1k
为了提升其推理效率,OneFlow 首度将 Stable Diffusion 模型加速至“一秒出图”时代,极大提升了文生图的速度,在AIGC领域引发巨大反响,并得到了 Stability.ai 官方的支持。至今,OneFlow 还在不断刷新 SOTA 纪录。

35张图,直观理解Stable Diffusion

2023-01-13
阅读 8 分钟
61k
最近,AI图像生成引人注目,它能够根据文字描述生成精美图像,这极大地改变了人们的图像创作方式。Stable Diffusion作为一款高性能模型,它生成的图像质量更高、运行速度更快、消耗的资源以及内存占用更小,是AI图像生成领域的里程碑。

32篇年度最佳AI论文;Python编译器Codon开源;ChatGPT的前世今生

2022-12-28
阅读 4 分钟
1.3k
从论文的主要贡献机构来看(有些机构虽然有贡献但排名较后有挂名嫌疑的,都被忽略不计了),似乎可以反映出各公司在AI领域的江湖地位:第一档:Google 8篇,Meta 6篇雄踞前二名,OpenAI 3篇但有两篇影响力巨大的(DALL·E 2和ChatGPT),如果按代表作评价,可能不会输给两巨头。第二档:NVIDIA有2.5篇。第三档:国内腾讯...

YOLOv5全面解析教程②:如何制作训练效果更好的数据集

2022-12-24
阅读 5 分钟
2.7k
本文主要介绍 One-YOLOv5 使用的数据集格式以及如何制作一个可以获得更好训练效果的数据集。本节教程的数据集标准部分翻译了 Ultralytics/YOLOv5 wiki 中对数据集相关的描述([链接]) 。

关于 ChatGPT 的一切;CUDA 入门之矩阵乘;PyTorch 2.0 发布|AI 系统前沿动态

2022-12-11
阅读 3 分钟
1k
ChatGPT 是 GPT3 的一大飞跃,就像 GPT3 本身是 GPT2 的质的飞跃一样。目前,关于 ChatGPT 的解读内容数量和种类繁多,让人跟上非常困难,容易患错失恐惧症。因此,作者整理了一个笔记,并尝试给出一个连贯、简洁的 ChatGPT 阅读摘要,帮助读者更为清晰和简洁地了解 ChatGPT。

一块RTX 3090加速训练YOLOv5s,时间减少11个小时,速度提升20%

2022-12-09
阅读 8 分钟
1.5k
不过,可能你也在思考一个问题:虽然OneFlow的兼容性做得很好,可以很方便地移植YOLOv5并使用OneFlow后端来进行训练,但为什么要用OneFlow?能缩短模型开发周期吗?解决了任何痛点吗? 本篇文章将尝试回答这几个问题。

OneFlow源码解析:自动微分机制

2022-12-04
阅读 13 分钟
785
深度学习框架一般通过自动微分(autograd)机制计算梯度并反向传播。本文尝试通过一个简单的例子,粗浅地观察一下OneFlow的autograd的实现机制。

刷新AI作图速度,最快开源Stable Diffusion出炉

2022-12-01
阅读 4 分钟
1.7k
AI 作图一开始的 “风格化” 本身就为 “玩” 而生,大家普遍兴致勃勃地尝试头像生成、磨皮,但很快就失去兴趣。直到扩散模型的降临,才给 AI 作图带来质变,让人们看到了 “AI 转成生产力” 的曙光:画家、设计师不用绞尽脑汁思考色彩、构图,只要告诉 Diffusion 模型想要什么,就能言出法随般地生成高质量图片。

Stable Diffusion半秒出图;VLIW的前世今生;YOLOv5全面解析教程 | AI系统前沿动态

2022-11-24
阅读 3 分钟
1.2k
自研深度学习编译器技术的 OneFlow 团队更是在不降低采样效果的前提下,成功将之前的 “一秒出图” 缩短到了 “半秒出图”!在 GPU 上仅仅使用不到 0.5 秒就可以获得一张高清图片!

大模型狂欢背后:AI基础设施的“老化”与改造工程

2022-11-22
阅读 7 分钟
720
机器学习模型逐渐发展成人们口中的“庞然大物”。全球顶尖的科技公司纷纷踏上“军备竞赛”之路,立志训练出规模最大的模型(MUM、OPT、GPT-3、Megatron),而其他专注于生产系统的公司也相继扩大其原有模型,并取得良好成果。

李白:你的模型权重很不错,可惜被我没收了

2022-11-15
阅读 7 分钟
758
撰文|CPFLAME大噶好,年更楼主今天想推的是,主打分布式训练的模型库_李白(LiBai)。 [链接]对于目前市面上的模型库来说,选择实在是太多了,换了一批又一批,眼睛都挑花了,为什么要用LiBai?(如果你觉得LiBai万一某天能用到,或者这篇文章读下来感觉比较开心,可以去GitHub上点赞,如果能三连就更好了。众所周知,G...

一个更快的YOLOv5问世,附送全面中文解析教程

2022-11-07
阅读 4 分钟
1.2k
这次,为了让用户深入了解 OneFlow 训练目标检测模型的可行性以及性能的优越性,我们将 Ultralytics 版 YOLOv5([链接])通过 import oneflow as torch 的方式迁移为 OneFlow 后端(对应 YOLOv5 的 commit 为:48a85314bc80d8023c99bfb114cea98d71dd0591)。

机器学习编译器的前世今生

2022-11-02
阅读 10 分钟
728
然而,当我逐渐了解ML模型如何投入生产应用,关于编译器的问题不断涌现。在许多用例中,尤其是用边缘设备运行ML模型时,模型的成功与否仍然取决于运行它的硬件([链接])。因此,了解模型的编译和优化,以及模型在不同硬件加速器上的运行非常重要。

OneFlow源码解析:Global Tensor

2022-10-31
阅读 7 分钟
931
上文中讲到的类似于PyTorch中的普通Tensor,在OneFlow中称为Local Tensor。Local Tensor是单卡视角下的普通Tensor。与之相对,OneFlow中还有一个独有的概念——Global Tensor。

训练大模型的九大深度学习库;谷歌转向文字→视频生成的两大利器|AI系统前沿动态

2022-10-25
阅读 4 分钟
1.2k
训练大型深度学习模型需要极大的内存,才能储存中间层的激活函数输出和权重等。一些模型只能在单个GPU上训练,训练时须将批大小(batch size)设置得极小;还有一些模型则太大,单个GPU放不下。这些问题会导致在某些情况下模型训练效率极低,甚至无法训练。训练大型深度学习模型主要有两大方法:数据并行、模型并行。

TPU演进十年:Google的十大经验教训

2022-10-25
阅读 11 分钟
923
David Patterson,Google杰出工程师、UC Berkeley荣誉退休教授、美国国家工程院、科学院院士、文理科学院“三院”院士。他是RISC(精简指令集计算机)、RAID(独立磁盘冗余阵列)和NOW(工作站网络)的缔造者,他与John Hennessy的著作《计算机体系结构:量化研究方法》在业内久负盛名。2017年,David Patterson加入Google...

进击的PyTorch,和它背后的开源领袖

2022-10-12
阅读 7 分钟
748
十年间,从Torch进化到PyTorch,再到近期落地Linux基金会,PyTorch从一个无心插柳的项目逐渐演变为最有影响力的开源项目之一。它究竟是如何一步步成长起来的?背后有那些与众不同的故事?OneFlow社区编译整理了Linux基金会对PyTorch创始人Soumith Chintala的最新采访以及他此前分享的关于PyTorch的开源历程,从中我们会...

OneFlow的大模型分片保存和加载策略

2022-10-08
阅读 10 分钟
1.1k
在模型比较小时(如 100G 以下),还有可能采用单机存储。当模型参数量比较大时,要求的样本数也更大,训练后做 dump 出来的模型也会很大,单机肯定放不下。

深挖Cerebras:世界上最大AI芯片的架构设计

2022-09-30
阅读 9 分钟
1k
近年来,神经网络模型规模呈指数级增长,从2018年拥有超1亿参数的Bert到2020年拥有1750亿个参数GPT-3,短短两年模型的参数量增加了3个数量级,而且这种增长还看不到尽头。

AI加速器与机器学习算法:协同设计与进化

2022-09-16
阅读 9 分钟
1.3k
此刻,你应该是在电脑或手机上看这篇文章。不管怎样,这些机器都属于现代计算机,它们都有中央处理器(CPU)和其他为特定功能服务的专用芯片,例如显卡、声卡、网卡、传感器融合等。处理特定任务时,专用处理器往往比通用CPU更快更高效。

Groq:从头设计一个张量流式处理器架构

2022-09-13
阅读 9 分钟
1.6k
作为一家由多位前Google TPU开发者组建的芯片公司,Groq一经成立便备受关注。2016年底,曾领导研发Google张量处理单元(TPU,用于加速机器学习而定制的芯片)的Jonathon Ross离职创办了Groq,他们希望能为AI和HPC工作负载提供毫不妥协的低延迟和高性能。

Hugging Face:成为机器学习界的“GitHub”

2022-09-07
阅读 7 分钟
756
五年前,AI领域的知名研究者Andrej Karpathy发文称,传统人工编程属于“软件1.0”,“软件2.0”时代将以神经网络来编程,在这个过渡过程中,将涌现像GitHub这样的重量级平台。