业界观点 - SegmentFault 思否

作为图片届的“Twitter”，Pinterest首页展示给用户的图片也离不开背后的推荐模型。近期，其工程团队通过将机器学习服务从CPU转移到GPU上，使得Pinterest可以上线比之前大100倍的推荐模型。上线大模型给模型质量带来了阶跃式的提升，最终将Pinterest首页feed流的用户活跃度提高了16%。在本文中，他们分享了如何只经过微小...

撰文｜郑建华、赵露阳1 Op在虚拟机里的执行1.1 PhysicalRun和InstructionsBuilder上一篇文章《OneFlow源码解析：Op、Kernel与解释器》中提到：PhysicalRun接受一个lambda函数作为参数，这里即InstructionsBuilder->Call方法，该方法接受kernel、input/output的eager blob object、kernel执行的上下文作为参数。Call方...

左益豪：用代码创造一个新世界｜OneFlow U

OneFlow

2022-08-08

阅读 3 分钟

847

左益豪，一流科技工程师（实习），2022年本科毕业于北京邮电大学电子商务及法律专业，目前已保研到本校人工智能学院。除了爱写代码，他自称，“琴棋书画，样样不通，唱跳Rap篮球，完全不会，但偶尔会帮亲朋好友维修电脑（谁说写代码的都不会修电脑 [狗头]）。”中学开始，他就把很多课余时间花在学习编程技能上，沉浸在代...

OneFlow源码解析：Op、Kernel与解释器

OneFlow

2022-08-01

阅读 10 分钟

1.3k

继续追踪执行流程会发现，ReluFunctor在构造UserOpExpr时会用到UserOpRegistryMgr管理的Op与Kernel。Op表示算子的描述信息，Kernel在不同设备上实现计算。

18张图，直观理解神经网络、流形和拓扑

OneFlow

2022-07-28

阅读 8 分钟

1.9k

迄今，人们对神经网络的一大疑虑是，它是难以解释的黑盒。本文则主要从理论上理解为什么神经网络对模式识别、分类效果这么好，其本质是通过一层层仿射变换和非线性变换把原始输入做扭曲和变形，直至可以非常容易被区分不同的类别。实际上，反向传播算法（BP) 其实就是根据训练数据不断地微调这个扭曲的效果。本文用多张...

一种分布式深度学习编程新范式：Global Tensor

OneFlow

2022-07-26

阅读 10 分钟

783

当前的并行程序，大都采用单程序多数据（SPMD）的方式来编程。并行执行同样的程序，但是处理的是不同数据，以此实现数据的并行处理。以 PyTorch DistributedDataParallel（DDP）为例，每个进程执行同样的神经网络计算逻辑，但是每个进程加载数据集的不同分片。

如何在OneFlow中新增算子

OneFlow

2022-07-25

阅读 14 分钟

1.2k

本文将以开发一个 leaky_relu（准确说是 leaky_relu_yzh op，因为 master 分支的 leaky_relu 组合了其它知识点）为例介绍如何在 OneFlow 中新增算子（[链接]）。

源启数字化：既有模式，还是开源创新？｜砺夏行动

OneFlow

2022-07-21

阅读 2 分钟

654

百年变局与世纪疫情交织叠加，不确定性增加。“产生混乱时最大的危险不是混乱本身，而是人们按照过去的逻辑行事”（德鲁克，1992）。有人会责怪命运不济，而智慧的人则认为这会是个千载难逢的历史性机遇。按既有模式重启，还是另寻开源创新之路，不同路径的选择直接关系到企业的命运。社会运动有其自身的规律。萌芽态的新...

我，AI博士生，在线众筹研究主题

OneFlow

2022-07-21

阅读 4 分钟

670

AI崛起十年之后，一些低垂的研究果子能摘的基本都被研究者们摘完了，隐藏在高处的果子一般人很难拿下。现在，很多研究者拔剑四顾心茫然，尤其对刚刚踏入AI领域的博士生，很难找到新的研究突破点，随着深度学习“撞墙”的唱衰声不断，大家也就只好卷各种SOTA了。

OneFlow v0.8.0正式发布

OneFlow

2022-07-19

阅读 3 分钟

972

今天是 OneFlow 开源的 717 天，OneFlow v0.8.0 正式发布。本次更新包含523个commit，完整更新列表请查看链接：[链接]，欢迎下载体验新版本，期待你的反馈。

大模型训练难于上青天？效率超群、易用的“李白”模型库来了

OneFlow

2022-07-15

阅读 13 分钟

1.5k

大模型多了去了，告诉我怎么加速？自 2018 年 BERT 诞生，到 GPT-3、ViT 等拥有数以亿计的参数规模的模型不断涌现，AI 模型参数量的爆发式增长已不足为奇，让炼丹师无暇顾及甚至感到麻木。

OneFlow源码一览：GDB编译调试

OneFlow

2022-07-14

阅读 7 分钟

1.4k

作者｜王益、严浩翻译｜程浩源、董文文1GDB Python3PyTorch官方发布了如何使用GDB对Python触发的C++代码进行调试的指南，详情参考:[链接]其核心思路是运行gdb python3。在GDB会话中，可以为给定的C++函数名设置断点，如at::Tensor::neg。GDB当前无法找到这个函数，prompt中会提示是否在共享库加载时将断点挂起，回答yes...

并行计算的量化模型及其在深度学习引擎里的应用

OneFlow

2022-07-08

阅读 7 分钟

876

天下武功，唯快不破。怎么更快地训练深度学习模型是业界一直关注的焦点，业界玩家或开发专用硬件，或开发软件框架，各显神通。本文将介绍对深度学习计算效率最关键的一些基本定律，这有助于用户理解深度学习引擎的瓶颈在哪里以及如何解决这些挑战。

LLVM之父Chris Lattner：为什么我们要重建AI基础设施软件

OneFlow

2022-07-05

阅读 3 分钟

889

人们曾经想象中的AI愿景很美好，现状却不尽人意。AI在自动驾驶、新药研发等日常应用上并未实现当初的预言，常见的吐槽是，全球的科技巨头汇集了一大批最聪明的大脑，但更多还是专注于思考广告的精准投放、信用评分以及并不怎么智能的“智能”音箱上。

从MLPerf谈起：如何引领AI加速器的下一波浪潮

OneFlow

2022-07-01

阅读 6 分钟

790

在深度学习史上，专用化硬件至少在AlexNet和Transformers这两个革命性时刻发挥了关键作用，介绍这两种架构的论文都在其摘要中强调了GPU的作用，并详细说明了它们如何将底层计算并行化到多个GPU中，以加快计算速度。

Geoffrey Hinton：我的五十年深度学习生涯与研究心法

OneFlow

2022-06-28

阅读 8 分钟

766

他从未正式上过计算机课程，本科在剑桥大学读的是生理学和物理学，期间曾转向哲学，但最终拿到的却是心理学方向的学士学位；他曾因为一度厌学去做木匠，但遇挫后还是回到爱丁堡大学，并拿到“冷门专业”人工智能方向的博士学位；数学不好让他在做研究时倍感绝望，当了教授之后，对于不懂的神经科学和计算科学知识，他也总...

钟珊珊：被爆锤后的工程师会起飞｜OneFlow U

OneFlow

2022-06-22

阅读 2 分钟

915

钟珊珊，一流科技工程师（实习），本科毕业于中山大学信息管理与信息系统专业，现在是中山大学计算机学院的准研究生。大学期间，她担任多个项目的主要负责人，并在数据驱动创新研究等高校大赛斩获了一众奖项，积累了技术实践经验。毕业后，在师兄师姐的推荐下，她来到 OneFlow 实习。她平时喜欢弹吉他，自称弹得并不怎么...

千亿参数“一口闷”？大模型训练必备四种策略

OneFlow

2022-06-15

阅读 4 分钟

1.4k

作者｜Lilian Weng、Greg Brockman翻译｜董文文AI领域的许多最新进展都围绕大规模神经网络展开，但训练大规模神经网络是一项艰巨的工程和研究挑战，需要协调GPU集群来执行单个同步计算。随着集群数和模型规模的增长，机器学习从业者开发了多项技术，在多个GPU上进行并行模型训练。乍一看，这些并行技术令人生畏，但只需...

一个算子在深度学习框架中的旅程

OneFlow

2022-06-14

阅读 19 分钟

1.5k

算子即Operator，这里简称op。op是深度学习的基础操作，任意深度学习框架中都包含了数百个op，这些op用于各种类型的数值、tensor运算。

李飞飞：我更像物理学界的科学家，而不是工程师｜深度学习崛起十年

OneFlow

2022-06-10

阅读 10 分钟

1.2k

来源｜The Robot Brains Podcast翻译｜胡燕君、程浩源、贾川、沈佳丽、许菡如新一轮深度学习崛起的引爆点是AlexNet，而它的爆发却离不开“燃料”ImageNet数据集。斯坦福大学教授李飞飞正是ImageNet的发起人和推动者，在她看来，ImageNet就是重塑计算机视觉或机器学习的“北极星”。不过，这一数据集的建立历经曲折，彼时遭受...

关于并发和并行，Go和Erlang之父都弄错了？

OneFlow

2022-06-08

阅读 9 分钟

1.3k

根据字面词义，并发（concurrent）是指竞争或对抗，而并行（parallelism）指两条直线永不相交的状态。在计算机中的并行和并发问题上，我与Joe Armstrong（译注：Erlang语言发明者）和Rob Pike（译注：Go语言发明者）这俩人的看法并不一致。

LLVM之父Chris Lattner：模块化设计决定AI前途，不服来辩

OneFlow

2022-06-02

阅读 4 分钟

1.3k

缺乏模块化的单体系统就像浑然一体的金字塔，失去了演化空间，抑制了创新。当前，AI领域正面临系统和工具链的互不兼容和碎片化，对这种混杂局面，编译器大牛Chris Lattner看不下去了。他于2022年1月宣布下海创业，同Tim Davis共同成立了Modular AI，目标是重建全球ML基础设施，包括编译器、运行时，异构计算、边缘到数...