一块GPU搞定ChatGPT；ML系统入坑指南；理解GPU底层架构

1. 跑ChatGPT体量模型，从此只需一块GPU

在发展技术，让大模型掌握更多能力的同时，也有人在尝试降低AI所需的算力资源。最近，一种名为FlexGen的技术因为「一块RTX 3090跑ChatGPT体量模型」而获得了人们的关注。

虽然FlexGen加速后的大模型看起来仍然很慢 —— 跑1750亿参数的语言模型时每秒1个token，但令人印象深刻的是，它已经把不可能变成了可能。传统上，大型语言模型（LLM）推理的高计算和内存要求使人们必须使用多个高端AI加速器进行训练。本研究探索了如何将LLM推理的要求降低到一个消费级GPU并实现实用性能。

链接：
https://mp.weixin.qq.com/s/Zd...

2. ChatGPT数据集之谜

至今，OpenAI并没有公开ChatGPT的相关训练数据集来源和具体细节，一定程度上也暂时卡了追赶者的脖子，更何况，业界公认中文互联网数据质量堪忧。本文作者则整理分析了2018年到2022年初从GPT-1到Gopher的相关大型语言模型的所有数据集相关信息，希望帮助有志于开发“类ChatGPT”模型的团队少走一步弯路。

链接：
https://mp.weixin.qq.com/s/9v...

3. ChatGPT背后的经济账

ChatGPT能否取代Google、百度这样的传统搜索引擎？为什么中国不能很快做出ChatGPT？当前，对这些问题的探讨大多囿于大型语言模型（LLM）的技术可行性，忽略或者非常粗糙地估计了实现这些目标背后的经济成本，从而造成对LLM的开发和应用偏离实际的误判。

本文作者从经济学切入，详细推导了类ChatGPT模型搜索的成本、训练GPT-3以及绘制LLM成本轨迹的通用框架，为探讨LLM成本结构和其未来发展提供了可贵的参考视角。

链接：
https://mp.weixin.qq.com/s/aA...

4. 解读ChatGPT背后的技术重点：RLHF、IFT、CoT、红蓝对抗

近段时间，ChatGPT 横空出世并获得巨大成功，使得 RLHF、SFT、IFT、CoT 等这些晦涩的缩写开始出现在普罗大众的讨论中。这些晦涩的首字母缩略词究竟是什么意思？为什么它们如此重要？我们调查了相关的所有重要论文，以对这些工作进行分类，总结迄今为止的工作，并对后续工作进行展望。

链接：
https://zhuanlan.zhihu.com/p/...

5. 为什么所有GPT-3复现都失败了？使用ChatGPT你应该知道这些

为什么所有公开的对 GPT-3 的复现都失败了？我们应该在哪些任务上使用 GPT-3.5 或 ChatGPT？对于那些想要复现一个属于自己的 GPT-3 或 ChatGPT 的人而言，第一个问题是关键的。第二个问题则对那些想要使用它们的人是重要的（下文提到 GPT-3，主要是指 GPT-3.5 或 InstructGPT 的最新版本，除了一些指向 GPT-3 原文的情况）。

链接：
https://mp.weixin.qq.com/s/fW...

6. 超越GPT 3.5的小模型来了

众所周知，ChatGPT 是在 GPT-3.5 系列模型的基础上微调而来的，我们看到很多研究也在紧随其后紧追慢赶，但是，与 ChatGPT 相比，他们的新研究效果到底有多好？近日，亚马逊发布的一篇论文，他们提出了包含视觉特征的 Multimodal-CoT，该架构在参数量小于 10 亿的情况下，在 ScienceQA 基准测试中，比 GPT-3.5 高出 16 个百分点 (75.17%→91.68%)，甚至超过了许多人类。

链接：
https://mp.weixin.qq.com/s/gv...

7. 聊聊对大模型的一些看法

外行看热闹，内行看门道。逻辑链的把握，对长程上下文的捕捉和适应，以及生成语句的通顺度，这几点在作者试验过的大量的case里都得到了验证，于是对于大模型这个技术方向"现实上的怀疑"也开始被打消了。

链接：
https://zhuanlan.zhihu.com/p/...

8. 一文理解大型语言模型的“上下文学习”

最近几年大语言模型（LLM）获得了越来越多的关注，其中最知名的当属 ChatGPT模型。ChatGPT模型展现了一些大模型才具备的突现能力（就是模型规模必须得增大到一定程度才会显现的能力，比如至少百亿级），其中一项能力就是上下文学习（In-Context Learning）。这也引发了研究人员对该能力产生原因的思考和探索。

链接：
https://mp.weixin.qq.com/s/sT...

9. 理解GPU的底层架构

笔者是新进GPU行业从业者，之前在CPU芯片行业做一些底层软件驱动开发工作，深知熟悉CPU的底层结构原理对驱动编写和阅读他人驱动代码大有裨益，本文则介绍了GPU的底层工作原理。

链接：
https://zhuanlan.zhihu.com/p/...

10. ML System入坑指南

最近ChatGPT大火，越来越多开始关注大模型，但对于大模型落地，除了先进的算法，其背后的ML System(机器学习系统)，从分布式训练到高效推理的完整链路同样重要，好的基础设施是应用爆发的基础。本文主要围绕作者学习的经历来构筑，希望能给希望入坑的新人一个指引，也给非Mlsys背景但感兴趣的其他领域的同学一些启发。

链接：
https://zhuanlan.zhihu.com/p/...

11. 开源机器学习软件对AI的发展意味着什么

过去十年，只要构建过ML模型的人都知道MLOSS至关重要，无论是Deepmind的研发工程师，还是印度的高中生都无一例外会使用开源软件来构建模型。作者采访了24名ML从业者，他们都给出了相同的答案：MLOSS工具在模型构建中的地位举足轻重。

从业者都在免费使用MLOSS工具，也就意味着这类工具会对人工智能发展产生巨大影响。然而，探索MLOSS对AI发展影响的研究人员却寥寥无几。

链接：
https://mp.weixin.qq.com/s/7b...

12. OneFlow源码解析：静态图与运行时

OneFlow静态图的训练效率远高于动态图（eager模式）。本文试图通过一个简单例子，结合v0.8.0版本的代码，解读一下静态图和运行时的实现机制。

链接：
https://mp.weixin.qq.com/s/3s...

13. CUDA编程：矩阵乘运算从CPU到GPU

本文主要介绍用CUDA实现矩阵乘法运算（C = A x B）的几个基本方法，帮助理解矩阵在GPU上面的运算与CPU上的有何异同，通过实践上手CUDA的优化计算，相比基础方法，能提速10倍以上。本文内容涉及到CUDA矩阵1D运算、2D运算、共享内存、CUBLAS的使用。

链接：
https://zhuanlan.zhihu.com/p/...

14. CUDA SASS汇编器：CuAssembler

尽管CuAssembler主要的目的是把nvdisasm的输出重新转回cubin，但它并不是从零开始写汇编。作者推荐从CUDA C开始，除了kernel代码外，其他初始化代码都是尽量用Runtime API，这样使用和修改都最简单直接。

链接：
https://zhuanlan.zhihu.com/p/...

15. 全面碾压AdamW：谷歌新出优化器内存小、效率高

来自谷歌、 UCLA 的研究者提出了一种通过程序搜索发现深度神经网络训练的优化算法的方法，进而发现 Lion（EvoLved Sign Momentum）优化器。

实现这一目标面临两个挑战：首先是在无限稀疏的程序空间中寻找高质量的算法；其次是选择可以从小型任务泛化到更大、SOTA 任务的算法。为了应对这些挑战。该研究采用了一系列技术，包括具有热启动和重启的进化搜索、抽象执行、funnel 选择和程序简化。

链接：
https://mp.weixin.qq.com/s/QK...

16. YOLOv5全面解析教程③：更快更好的边界框回归损失

本文总结了边界框回归中的三个几何因素，即重叠面积（overlap area）、中心点距离（central point distance）和高宽比（aspect ratio），在此基础上提出了完全IoU(CIoU)损失，从而促进了更快的收敛和更优的性能。

链接：
https://mp.weixin.qq.com/s/LI...

17. 下载量突破10亿，MinIO的开源启示录

在开源创业公司里，MinIO的成长之路对其他开源企业/项目来说无疑是一个很好的参考范例。近期，他们的CMO Jonathan Symonds在一篇博客中分享了MinIO如何超越专有软件公司，以及如何在未来巩固自身优势，重点阐述了他们在开源商业模式、产品、社区构建以及开源信仰方面的想法，这些内容或许值得开源社区的初创企业借鉴。

链接：
https://mp.weixin.qq.com/s/ec...

欢迎 Star、试用 OneFlow 最新版本：https://github.com/Oneflow-In...

一块GPU搞定ChatGPT；ML系统入坑指南；理解GPU底层架构

1. 跑ChatGPT体量模型，从此只需一块GPU

2. ChatGPT数据集之谜

3. ChatGPT背后的经济账

4. 解读ChatGPT背后的技术重点：RLHF、IFT、CoT、红蓝对抗

5. 为什么所有GPT-3复现都失败了？使用ChatGPT你应该知道这些

6. 超越GPT 3.5的小模型来了

7. 聊聊对大模型的一些看法

8. 一文理解大型语言模型的“上下文学习”

9. 理解GPU的底层架构

10. ML System入坑指南

11. 开源机器学习软件对AI的发展意味着什么

12. OneFlow源码解析：静态图与运行时

13. CUDA编程：矩阵乘运算从CPU到GPU

14. CUDA SASS汇编器：CuAssembler

15. 全面碾压AdamW：谷歌新出优化器内存小、效率高

16. YOLOv5全面解析教程③：更快更好的边界框回归损失

17. 下载量突破10亿，MinIO的开源启示录

OneFlow

引用和评论

SiliconCloud上线Reflection-Llama-3.1-70B

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

MySQL × 向量数据库：大模型时代的黄金组合实战指南

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？