大模型产品化第一年​:战术、运营与战略

7 月 11 日
阅读 26 分钟
744
作者 | Eugene Yan、Bryan Bischof等OneFlow编译翻译|宛子琳、张雪聃、杨婷题图由SiliconCloud平台生成

OpenAI停服,国产大模型免费用!开发者Token自由实现了

7 月 1 日
阅读 3 分钟
209
好在,随着开源大模型水平越来越高,开发者已经有很多不错的 “平替”,比如 Qwen2、DeepSeek V2 等模型。为了给开发者提供更快、更便宜、更全面、体验更丝滑的开源大模型 API,AI Infra 领域的专业选手硅基流动(SiliconFlow)上场,推出了一站式大模型 API 平台 SiliconCloud。

文生图王者登场:Stable Diffusion 3 Medium正式开源

6 月 27 日
阅读 4 分钟
356
今年2月,Stability.ai发布了Stable Diffusion 3预览版,在多主题提示、图像质量和拼写能力方面具有显著的性能提升。Stable Diffusion 3是一个系列模型,参数量从800M到8B不等。

最强开源大模型面世:阿里发布Qwen2

6 月 27 日
阅读 3 分钟
363
6月17日凌晨,阿里巴巴通义千问团队发布了Qwen2系列开源模型。该系列模型包括5个尺寸的预训练和指令微调模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。

SiliconCloud公测上线,每人免费送3亿Token

6 月 17 日
阅读 2 分钟
883
随着模型能力的不断提升,不少开源大模型在诸多维度上已能媲美GPT4这类顶尖闭源模型,这也让它们能胜任多数生成式AI应用场景,更多开发者也开始基于开源大模型开发应用。

AIGC应用周刊EP02:20+公司AI应用产品分析;24名工程师的LLM使用痛点

5 月 30 日
阅读 6 分钟
465
本系列文章分析了海外科技公司将AI集成到其产品中的新方法和功能,包括Chrome、Slack、Docusign、Yelp、Google地图、Pinterest、Airbnb、Replit、Airtable等,总体而言,这些产品团队目前正在构建的功能分为5种不同的类别:

AIGC应用周刊EP01:GPT4o“全能”模型发布;2人AI团队被收购;3款AI搜索引擎

5 月 29 日
阅读 7 分钟
401
1. OpenAI发布GPT4o,能实时语音视频交互今天,OpenAI发布了最新的旗舰版模型GPT4o(“o”代表全能)。这是一个跨音频、视觉和文本的端到端的新模型,可以在平均320ms内对人类的语音输入进行响应,而此前ChatGPT的平均响应时间为2.8s(GPT-3.5)和5.4s(GPT-4)。

900个开源AI工具背后,我看到的趋势

5 月 27 日
阅读 6 分钟
680
我把完整的开源AI代码库列表放在了“llama-police”([链接]),该列表每6小时更新一次。其余大部分也放在了我的GitHub“cool-llm-repos”([链接])列表中。

LLM Serving有效吞吐量的最大化实现

5 月 15 日
阅读 7 分钟
1.3k
如今的LLM应用具有多样化的时延要求。例如,聊天机器人可能需要快速的初始响应(例如,少于0.2秒),但在解码速度上只需要匹配人类阅读速度,而代码补全则需要快速的端到端生成时间,以实现实时代码建议。

LLM推理入门指南③:剖析模型性能

5 月 10 日
阅读 9 分钟
311
在本系列文章《LLM推理入门指南①:文本生成的初始化与解码阶段》中,作者对Transformer解码器的文本生成算法进行了高层次概述,着重介绍了两个阶段:提示的处理阶段和逐个生成补全词元的多步生成阶段。在上一篇文章《LLM推理入门指南②:深入解析KV Cache》中,深入探讨了KV Cache优化。

终极GPU互联技术探索:消失的内存墙

5 月 7 日
阅读 8 分钟
335
《AI算力的阿喀琉斯之踵:内存墙》一文曾指出,过去20年,硬件算力峰值增长了90000倍,但是DRAM/硬件互连带宽只增长了30倍。在这个趋势下,特别是芯片内或者芯片间的数据传输会迅速成为训练大规模AI模型的瓶颈。

生成式AI产业经济学:价值分配与利润结构

4 月 29 日
阅读 5 分钟
275
然而,ChatGPT爆火一年后,GenAI产业还没有形成像当前云服务产业那样的价值结构,后者的上层应用占据价值链中的大部分比例,并获取了大部分利润,基础设施软件层的利润次之,而硬件层分到的“蛋糕”最少。

LLaMA 3:大模型之战的新序幕

4 月 25 日
阅读 6 分钟
207
作者 | 符尧OneFlow编译翻译|杨婷、宛子琳、张雪聃本文要点概览:文本数据的扩展可能已经达到了极限,因为易于获取的网络文本资源(如Common Crawl、GitHub、ArXiv等)已基本被充分利用。尽管如此,通过更深入地挖掘互联网资源、搜寻图书馆藏书及使用合成数据,我们仍有望获得新的文本数据,但要实现数据量级的大幅提升...

OneDiff 1.0发布!生产环境稳定加速SD/SVD模型

4 月 25 日
阅读 1 分钟
250
自Stable Diffusion模型发布以来,硅基流动开发的OneDiff图片/视频推理加速引擎以其卓越的性能、“一键”加速的易用性、以及对最新算法和应用框架的快速支持,深受开发者和用户的喜爱。

Stable Diffusion XL优化终极指南

4 月 19 日
阅读 35 分钟
448
如何在自己的显卡上获得SDXL的最佳质量和性能,以及如何选择适当的优化方法和工具,这一让GenAI用户倍感困惑的问题,业内一直没有一份清晰而详尽的评测报告可供参考。直到全栈开发者Félix San出手。

LLM推理的极限速度

4 月 18 日
阅读 6 分钟
281
本文作者Arseny Kapoulkine从零开始开发了语言大模型推理的一种实现方式calm([链接]),旨在以最少的实现和无依赖性的方式为LLM架构获得最大的单 GPU 单批次硬件利用率,该项目的其中一个关键考虑因素是确定推理的极限速度,并根据该极限来衡量相对进展。他在本文中探讨这一理论极限及其影响。

揭示GPU上的批处理策略

4 月 18 日
阅读 4 分钟
211
本文深入探讨了批处理在现代GPU上的工作原理,以及它是如何影响深度学习模型的推理速度,基于此,作者为模型优化提供了实用指导。通过优化批处理策略,研究人员和工程师可以更有效地利用计算资源,提高模型的推理效率。(本文作者为机器学习研究员Finbarr Timbers,他曾是DeepMind的工程师。本文由OneFlow编译发布,转载...

百万用户通话新风潮:仅需50秒,无界AI让彩铃变身短视频

4 月 18 日
阅读 2 分钟
174
无界AI是由杭州超节点信息科技有限公司创立的国内领先的人工智能生成内容(AIGC)平台 , 专注于人工智能大模型在图像视频领域的生成创造,为用户提供先进且丰富的AIGC工具,满足不限于动漫、影视、短视频创作及设计等各行各业的图片与视频内容生产需求。自上线以来,无界AI平台已累计超过400多万C端、B端用户。在无界AI...

Transformer模型的基础演算

2023-05-22
阅读 6 分钟
884
Transformer语言模型的许多基本重要信息可以通过简单计算得出。不幸的是,这些计算公式在自然语言处理(NLP)社区中并不广为人知。AI非营利研究组织EleutherAI收集整理这些公式,并介绍这些公式的来源和重要性。
封面图

《分布式人工智能系统》讲习班开始报名|CCF ADL

2023-05-22
阅读 6 分钟
685
深度学习正以“软件 2.0”的姿态进入到 AIGC、生物制药、新材料以及科学计算等领域。这些领域的模型规模越来越大,尤其以 ChatGPT 为代表的大模型层出不穷,但由于算力增速不足、分布式编程门槛高,分布式人工智能系统成为产学两界共同关注的焦点。
封面图

关于大型语言模型的争论和局限

2023-05-22
阅读 7 分钟
983
以色列巴伊兰大学教授Yoav Goldberg分享了他对大型语言模型的能力和局限性的看法,以及在语言理解方面的立场。(以下内容经授权后由OneFlow编译发布,译文转载请联系OneFlow获得授权。原文:[链接])
封面图

揭秘RLHF;可商用开源LLM列表;领域编译器的前世今生

2023-05-17
阅读 4 分钟
607
那么,从推动这一系列变革的科学家角度,他究竟如何看待当先ChatGPT、GPT-4模型的发展?他对AI的思考和坚定信念从何而来?OpenAI下一步研究方向是什么?他又如何看待AI对社会的影响?

复杂推理:大型语言模型的"北极星"能力

2023-05-17
阅读 8 分钟
807
最近,很多关于较小模型的研究取得了令人振奋的对话能力,这让人们想象,是否较小的模型能具有与像 GPT-3.5 这样的大型模型相当的性能。一般来说,语言模型具有多维能力,所以模型之间的相互对比较为困难。找到正确的衡量标准对于开发强大的语言模型至关重要。在目前阶段,研究者们急切想知道什么是度量大语言模型潜力的...

为什么ChatGPT用强化学习而非监督学习?

2023-05-09
阅读 5 分钟
688
为什么ChatGPT非得用强化学习,而不直接用监督学习?原因不是那么显而易见。在上周发布的《John Schulman:通往TruthGPT之路》一文中,OpenAI联合创始人、ChatGPT主要负责人John Schulman分享了OpenAI在人类反馈的强化学习(RLHF)方面的进展,分析了监督学习和强化学习各自存在的挑战。

John Schulman:强化学习与真实性,通往TruthGPT之路

2023-05-06
阅读 12 分钟
943
OpenAI团队希望通过改进强化学习反馈步骤“原生地”阻止神经网络产生幻觉,OpenAI首席科学家Ilya Sutskever对此胸有成竹。作为ChatGPT项目的主要负责人以及OpenAI强化学习团队的领导者,John Schulman在最近的Berkeley EECS会议上系统性地分享了OpenAI在人类反馈的强化学习(RLHF)方面所做的工作,以及语言模型的幻觉等亟...

NCCL源码解析③:机器内拓扑分析

2023-04-27
阅读 21 分钟
1.4k
由于GPU机器架构是多种多样的,一台机器上可能有多个网卡,多个GPU卡,卡间连接也各不相同,因此需要对机器内设备连接拓扑进行分析,以使性能在各种拓扑结构下都尽可能好。

向量嵌入:AutoGPT的幻觉解法?

2023-04-25
阅读 5 分钟
883
“一本正经胡说八道”的幻觉问题是ChatGPT等大型语言模型(LLM)亟需解决的通病。虽然通过人类反馈的强化学习(RLHF),可以让模型对错误的输出结果进行调整,但在效率和成本上不占优势,况且仅通过RLHF并不能彻底解决问题,由此也限制了模型的实用性。

OneFlow源码解析:Eager模式下Tensor的存储管理

2023-04-19
阅读 4 分钟
611
Lazy Tensor 的存储是由 Runtime 和 Actor 等对象管理的。静态图完成编译后,需要多少个对象、多少存储空间都是确定的,Runtime 等在初始化时会分配存储,在退出时回收资源。

“ChatGPT们”的淘金时代

2023-03-31
阅读 15 分钟
914
语言(即读写能力)是人类最重要的发明,也是人类与其它物种的最大区别。语言使我们掌握了抽象推理,发展出了复杂思维,学会了与他人沟通交流。可以说,没有语言就不会有现代文明。

GPT-4创造者:第二次改变AI浪潮的方向

2023-03-27
阅读 9 分钟
950
不过,就在ChatGPT问世前,OpenAI在GPT-3发布后的两年多时间里陷入沉寂,甚至开始被人唱衰。实际上,OpenAI在这期间正在潜心打磨GPT-3.5。