探索编译软件栈新范式;高端GPU禁售的影响;陈天奇DL系统免费课程|AI系统前沿动态

2022-09-06
阅读 3 分钟
969
互联网企业成为此次制裁波及的主要对象。行业人士指出,互联网厂商出于对性能等因素考虑,对国产CPU、GPU普遍接纳度不高,此次事件应为互联网厂商预警,加速CPU、GPU等核心芯片的国产替代应受到重视,希望有助于互联网厂商加速推进服务器核心芯片国产替代的导入和验证,提升自主可控能力。

OneFlow源码解析:Tensor类型体系与Local Tensor

2022-09-06
阅读 11 分钟
1.1k
tensor和op是神经网络模型最基本的组件:op是模型的节点,tensor是连接节点的边。然而,构建一个tensor并不仅仅是构造一个对象那么简单,至少要考虑以下问题:

从Core Dump中提取CUDA的报错信息

2022-09-01
阅读 4 分钟
1.6k
近期,Meta AI团队在生产PyTorch AI模型时遇到了一个难题。这一问题由CUDA非法内存访问引起,号称集结了Meta全公司最牛的AI工程师才搞定,这篇博客记录了他们使用CUDA的core dump来确定报错位置所使用的技巧和实践。

英伟达首席科学家:深度学习硬件的过去、现在和未来

2022-08-24
阅读 14 分钟
791
过去十年是深度学习的“黄金十年”,它彻底改变了人类的工作和娱乐方式,并且广泛应用到医疗、教育、产品设计等各行各业,而这一切离不开计算硬件的进步,特别是GPU的革新。

你以为的推荐系统,其实只是推荐模型

2022-08-19
阅读 3 分钟
847
目前,关于推荐系统的网络资料大部分关注的是推荐模型本身,而且仅限于介绍一些简单的协同过滤(Collaborative Filtering)模型。对新手来说,只了解简单的推荐模型并不足以让他们构建出一个真正能在实际生产中使用的推荐系统。

一块GPU训练TB级推荐模型不是梦,OneEmbedding性能一骑绝尘

2022-08-12
阅读 9 分钟
530
个性化推荐已成为人们获取信息的主要形式。以往,人们更多通过主动搜寻自己感兴趣的信息,而现在,基于算法推荐技术的信息分发平台会自动识别用户兴趣,快速筛选信息,推送用户所感兴趣的信息。

GPU加速Pinterest推荐模型,参数量增加100倍,用户活跃度提高16%

2022-08-10
阅读 4 分钟
862
作为图片届的“Twitter”,Pinterest首页展示给用户的图片也离不开背后的推荐模型。近期,其工程团队通过将机器学习服务从CPU转移到GPU上,使得Pinterest可以上线比之前大100倍的推荐模型。上线大模型给模型质量带来了阶跃式的提升,最终将Pinterest首页feed流的用户活跃度提高了16%。在本文中,他们分享了如何只经过微小...

OneFlow源码解析:算子指令在虚拟机中的执行

2022-08-10
阅读 16 分钟
963
撰文|郑建华、赵露阳1 Op在虚拟机里的执行1.1 PhysicalRun和InstructionsBuilder上一篇文章《OneFlow源码解析:Op、Kernel与解释器》中提到:PhysicalRun接受一个lambda函数作为参数,这里即InstructionsBuilder->Call方法,该方法接受kernel、input/output的eager blob object、kernel执行的上下文作为参数。Call方...

左益豪:用代码创造一个新世界|OneFlow U

2022-08-08
阅读 3 分钟
703
左益豪,一流科技工程师(实习),2022年本科毕业于北京邮电大学电子商务及法律专业,目前已保研到本校人工智能学院。除了爱写代码,他自称,“琴棋书画,样样不通,唱跳Rap篮球,完全不会,但偶尔会帮亲朋好友维修电脑(谁说写代码的都不会修电脑 [狗头])。”中学开始,他就把很多课余时间花在学习编程技能上,沉浸在代...

OneFlow源码解析:Op、Kernel与解释器

2022-08-01
阅读 10 分钟
1.1k
继续追踪执行流程会发现,ReluFunctor在构造UserOpExpr时会用到UserOpRegistryMgr管理的Op与Kernel。Op表示算子的描述信息,Kernel在不同设备上实现计算。

18张图,直观理解神经网络、流形和拓扑

2022-07-28
阅读 8 分钟
1.4k
迄今,人们对神经网络的一大疑虑是,它是难以解释的黑盒。本文则主要从理论上理解为什么神经网络对模式识别、分类效果这么好,其本质是通过一层层仿射变换和非线性变换把原始输入做扭曲和变形,直至可以非常容易被区分不同的类别。实际上,反向传播算法(BP) 其实就是根据训练数据不断地微调这个扭曲的效果。本文用多张...

一种分布式深度学习编程新范式:Global Tensor

2022-07-26
阅读 10 分钟
629
当前的并行程序,大都采用单程序多数据(SPMD)的方式来编程。并行执行同样的程序,但是处理的是不同数据,以此实现数据的并行处理。以 PyTorch DistributedDataParallel(DDP) 为例,每个进程执行同样的神经网络计算逻辑,但是每个进程加载数据集的不同分片。

如何在OneFlow中新增算子

2022-07-25
阅读 14 分钟
991
本文将以开发一个 leaky_relu(准确说是 leaky_relu_yzh op,因为 master 分支的 leaky_relu 组合了其它知识点)为例介绍如何在 OneFlow 中新增算子([链接])。

源启数字化:既有模式,还是开源创新?|砺夏行动

2022-07-21
阅读 2 分钟
512
百年变局与世纪疫情交织叠加,不确定性增加。“产生混乱时最大的危险不是混乱本身,而是人们按照过去的逻辑行事”(德鲁克,1992)。有人会责怪命运不济,而智慧的人则认为这会是个千载难逢的历史性机遇。按既有模式重启,还是另寻开源创新之路,不同路径的选择直接关系到企业的命运。 社会运动有其自身的规律。萌芽态的新...

我,AI博士生,在线众筹研究主题

2022-07-21
阅读 4 分钟
529
AI崛起十年之后,一些低垂的研究果子能摘的基本都被研究者们摘完了,隐藏在高处的果子一般人很难拿下。现在,很多研究者拔剑四顾心茫然,尤其对刚刚踏入AI领域的博士生,很难找到新的研究突破点,随着深度学习“撞墙”的唱衰声不断,大家也就只好卷各种SOTA了。

OneFlow v0.8.0正式发布

2022-07-19
阅读 3 分钟
768
今天是 OneFlow 开源的 717 天,OneFlow v0.8.0 正式发布。本次更新包含523个commit,完整更新列表请查看链接:[链接],欢迎下载体验新版本,期待你的反馈。

大模型训练难于上青天?效率超群、易用的“李白”模型库来了

2022-07-15
阅读 13 分钟
1.2k
大模型多了去了,告诉我怎么加速?自 2018 年 BERT 诞生,到 GPT-3、ViT 等拥有数以亿计的参数规模的模型不断涌现,AI 模型参数量的爆发式增长已不足为奇,让炼丹师无暇顾及甚至感到麻木。

OneFlow源码一览:GDB编译调试

2022-07-14
阅读 7 分钟
1.2k
作者|王益、严浩翻译|程浩源、董文文1GDB Python3PyTorch官方发布了如何使用GDB对Python触发的C++代码进行调试的指南,详情参考:[链接]其核心思路是运行gdb python3。在GDB会话中,可以为给定的C++函数名设置断点,如at::Tensor::neg。GDB当前无法找到这个函数,prompt中会提示是否在共享库加载时将断点挂起,回答yes...

并行计算的量化模型及其在深度学习引擎里的应用

2022-07-08
阅读 7 分钟
729
天下武功,唯快不破。怎么更快地训练深度学习模型是业界一直关注的焦点,业界玩家或开发专用硬件,或开发软件框架,各显神通。本文将介绍对深度学习计算效率最关键的一些基本定律,这有助于用户理解深度学习引擎的瓶颈在哪里以及如何解决这些挑战。

LLVM之父Chris Lattner:为什么我们要重建AI基础设施软件

2022-07-05
阅读 3 分钟
757
人们曾经想象中的AI愿景很美好,现状却不尽人意。AI在自动驾驶、新药研发等日常应用上并未实现当初的预言,常见的吐槽是,全球的科技巨头汇集了一大批最聪明的大脑,但更多还是专注于思考广告的精准投放、信用评分以及并不怎么智能的“智能”音箱上。

从MLPerf谈起:如何引领AI加速器的下一波浪潮

2022-07-01
阅读 6 分钟
695
在深度学习史上,专用化硬件至少在AlexNet和Transformers这两个革命性时刻发挥了关键作用,介绍这两种架构的论文都在其摘要中强调了GPU的作用,并详细说明了它们如何将底层计算并行化到多个GPU中,以加快计算速度。

Geoffrey Hinton:我的五十年深度学习生涯与研究心法

2022-06-28
阅读 8 分钟
591
他从未正式上过计算机课程,本科在剑桥大学读的是生理学和物理学,期间曾转向哲学,但最终拿到的却是心理学方向的学士学位;他曾因为一度厌学去做木匠,但遇挫后还是回到爱丁堡大学,并拿到“冷门专业”人工智能方向的博士学位;数学不好让他在做研究时倍感绝望,当了教授之后,对于不懂的神经科学和计算科学知识,他也总...

钟珊珊:被爆锤后的工程师会起飞|OneFlow U

2022-06-22
阅读 2 分钟
685
钟珊珊,一流科技工程师(实习),本科毕业于中山大学信息管理与信息系统专业,现在是中山大学计算机学院的准研究生。大学期间,她担任多个项目的主要负责人,并在数据驱动创新研究等高校大赛斩获了一众奖项,积累了技术实践经验。毕业后,在师兄师姐的推荐下,她来到 OneFlow 实习。她平时喜欢弹吉他,自称弹得并不怎么...

千亿参数“一口闷”?大模型训练必备四种策略

2022-06-15
阅读 4 分钟
1.2k
作者|Lilian Weng、Greg Brockman翻译|董文文AI领域的许多最新进展都围绕大规模神经网络展开,但训练大规模神经网络是一项艰巨的工程和研究挑战,需要协调GPU集群来执行单个同步计算。随着集群数和模型规模的增长,机器学习从业者开发了多项技术,在多个GPU上进行并行模型训练。乍一看,这些并行技术令人生畏,但只需...

一个算子在深度学习框架中的旅程

2022-06-14
阅读 19 分钟
1.2k
算子即Operator,这里简称op。op是深度学习的基础操作,任意深度学习框架中都包含了数百个op,这些op用于各种类型的数值、tensor运算。

李飞飞:我更像物理学界的科学家,而不是工程师|深度学习崛起十年

2022-06-10
阅读 10 分钟
995
来源|The Robot Brains Podcast翻译|胡燕君、程浩源、贾川、沈佳丽、许菡如新一轮深度学习崛起的引爆点是AlexNet,而它的爆发却离不开“燃料”ImageNet数据集。斯坦福大学教授李飞飞正是ImageNet的发起人和推动者,在她看来,ImageNet就是重塑计算机视觉或机器学习的“北极星”。不过,这一数据集的建立历经曲折,彼时遭受...

关于并发和并行,Go和Erlang之父都弄错了?

2022-06-08
阅读 9 分钟
1.1k
根据字面词义,并发(concurrent)是指竞争或对抗,而并行(parallelism)指两条直线永不相交的状态。在计算机中的并行和并发问题上,我与Joe Armstrong(译注:Erlang语言发明者)和Rob Pike(译注:Go语言发明者)这俩人的看法并不一致。

LLVM之父Chris Lattner:模块化设计决定AI前途,不服来辩

2022-06-02
阅读 4 分钟
1.1k
缺乏模块化的单体系统就像浑然一体的金字塔,失去了演化空间,抑制了创新。当前,AI领域正面临系统和工具链的互不兼容和碎片化,对这种混杂局面,编译器大牛Chris Lattner看不下去了。他于2022年1月宣布下海创业,同Tim Davis共同成立了Modular AI, 目标是重建全球ML基础设施,包括编译器、运行时,异构计算、边缘到数...

手把手推导分布式矩阵乘的最优并行策略

2022-06-01
阅读 8 分钟
1.2k
常用深度学习框架的自动并行机制还不够完善,还需要用户根据经验来配置并行方式,这给开发者带来了不小的智力负担。因此,实现自动最优并行就成为一个有趣的课题。

拯救工程师,远程开发C++的四大秘笈|视频教程

2022-05-31
阅读 2 分钟
962
由于新冠疫情的影响,越来越多的国内公司开始支持远程办公 ([链接]),OneFlow也是如此,几乎所有的实习生与超过三分之一的全职研发人员都是远程办公。