AI像人一样操控电脑:多模态AI Agents和屏幕交互新范式

11 月 20 日
阅读 4 分钟
206
编者按: 未来我们与计算机的交互方式将发生怎样的变革?当 AI 能像人类一样自如地操控电脑和手机,我们的工作方式会有什么改变?本文深入剖析了 Anthropic、微软和苹果三大科技巨头在突破这一瓶颈上的最新进展。通过解读他们各自独特的技术路线 —— 从 Anthropic 采用像素计数方式实现精准导航,到微软将界面解析为结构...
封面图

「混合专家模型」可视化指南:A Visual Guide to MoE

11 月 15 日
阅读 13 分钟
106
编者按: 对大语言模型进行扩展的过程中,如何在保持高性能的同时有效控制计算资源消耗?混合专家模型(MoE)作为一种新兴的架构设计方案正在得到越来越多的关注,但它究竟是如何工作的?为什么越来越多的大语言模型都在采用这种架构?这篇文章通过50多张精心绘制的示意图,系统拆解了MoE的核心原理。从最基础的专家网络...
封面图

LLMs 如何处理相互矛盾的指令?指令遵循优先级实验

11 月 13 日
阅读 6 分钟
111
编者按:想象一下,你正在开发一个 AI 助手,突然发现 system message 和用户提示词存在冲突,这时 AI 会听谁的?这种情况不仅困扰着开发者,还可能导致 AI 系统的不稳定和不可预测,影响用户体验和系统可靠性。本文作者通过一系列精心设计的实验,深入探讨了 GPT-4o 和 Claude-3.5 等顶尖大语言模型在面对 system messa...
封面图

Agent 智能体开发框架选型指南

11 月 7 日
阅读 8 分钟
177
编者按: 本文通过作者的实践对比发现,框架的选择应基于项目具体需求和团队特点,而不是简单追求某个特定框架。不同框架各有优势:无框架方案实施最为简单直接,代码结构清晰,适合理解智能体原理,但随着项目复杂度增加可能变得难以维护。LangGraph提供完整的智能体结构规范,特别适合团队协作和智能体结构新手,但框...

Llama 3.2 Vision & Molmo:多模态开源生态系统基础

11 月 1 日
阅读 9 分钟
254
编者按: 视觉功能的融入对模型能力和推理方式的影响如何?当我们需要一个既能看懂图像、又能生成文本的 AI 助手时,是否只能依赖于 GPT-4V 这样的闭源解决方案?我们今天为大家分享的这篇文章,作者的核心观点是:多模态语言模型领域正处于快速发展阶段,Llama 3.2 Vision 和 Molmo 等开源模型的出现为构建开放的多模态...
封面图

怎样在 10k 个 H100 GPU 上训练模型?

10 月 28 日
阅读 3 分钟
210
编者按: 怎样在 10,000 个 H100 GPU 上训练大模型?如何充分利用每一块 GPU 的算力?如何在这个复杂的 GPU 网络中高效传递数据?当不可避免的硬件故障发生时,又该如何快速恢复训练进度?我们今天为大家带来的文章中,作者为我们揭示了应对这些挑战的关键策略。
封面图

50亿美元亏损背后:解析生成式 AI 的商业模式之争

10 月 25 日
阅读 4 分钟
146
编者按: 人工智能正在席卷各个行业,但你是否曾思考过:当 ChatGPT 的开发商 OpenAI 可能面临 50 亿美元亏损时,生成式 AI 的商业模式究竟还能走多远? 这篇分析文章直击当前 AI 行业的痛点:巨额投资与高昂运营成本之间的矛盾,技术进步与商业化之间的鸿沟,以及研究价值与经济可持续性之间的平衡。它提醒我们,在追求...
封面图

长上下文LLMs:RAG 的终结者还是最佳搭档?

10 月 16 日
阅读 9 分钟
352
编者按:随着大语言模型(LLMs)的上下文窗口不断扩大,您是否开始思考:我们还需要花费大量时间和资源来构建复杂的检索增强生成(RAG)系统吗?本文深入探讨了长上下文 LLMs 与 RAG 系统的优劣势,揭示了它们在实际应用中的表现差异。通过对最新四篇学术研究的全面分析,作者阐明了长上下文 LLMs 在某些任务中的优势,...
封面图

部署 LLMs 前如何计算与优化 GPU 内存需求?

10 月 10 日
阅读 7 分钟
241
编者按:想要部署大语言模型(LLMs),却不知该如何估算所需的 GPU 内存?在项目预算有限的情况下,是否曾因为 GPU 内存估算不准而导致资源浪费或性能不足?这些问题不仅影响项目进度,还可能直接导致成本超支或服务质量下降。本文作者凭借丰富的 LLM 部署经验,深入剖析了 GPU 内存需求的计算方法。从模型参数到 KV 缓...
封面图

对 AI 产品定价模式的新思考:基于人数 or 工作量?

9 月 26 日
阅读 5 分钟
224
编者按:传统的基于用户数量的定价模式是否还适用于AI产品?我们今天为大家带来的这篇文章中,作者提出:AI 产品应该采用基于工作量的定价模式,而非传统的基于用户数量的定价方式。传统的基于用户数量的定价模式在 AI 产品中往往会导致资源浪费和成本分配不均。一些员工可能每天都在大量使用 AI 工具,而另一些人可能几...
封面图

快速理解 GraphRAG:构建更可靠、更智能的 Chatbot

9 月 24 日
阅读 4 分钟
248
编者按:传统的检索增强生成(RAG)技术在处理需要深入理解实体关系的问题时常常力不从心,那么有什么新的技术可以突破这一限制吗?本文深入探讨了 GraphRAG 技术,这一创新方案通过将非结构化文本转化为结构化知识图谱,巧妙地解决了上述难题。GraphRAG 能显著提升 AI 系统理解和回答复杂问题的能力,尤其在跨时代、跨...
封面图

NPU 与 GPU 相比,有什么差别?| 技术速览

9 月 13 日
阅读 3 分钟
914
编者按: 随着2024年被业界誉为“AI PC元年”,各大笔记本电脑厂商纷纷推出搭载NPU的全新AI PC,而在介绍产品性能时,“NPU”一词频频被提及。但NPU和我们所熟知的GPU之间的区别究竟是什么?我们今天为大家分享的这篇文章将和大家一起初探NPU vs GPU。简而言之,NPU专为加速AI任务而设计,包括深度学习和推理,能够高效地处...
封面图

化“腐朽”为“神奇”:5 种 RAG 优化技术应对千奇百怪的 Query

9 月 11 日
阅读 7 分钟
210
编者按:您是否曾经遇到这样的情况:明明构建了一个功能强大的 RAG 系统,但用户却频繁抱怨“找不到想要的信息”或“返回的结果不够准确”?这是许多 RAG 应用开发者面临的共同挑战。这个问题不仅会导致用户体验下降,更可能直接影响 RAG 系统的使用率和实际价值。如果未能得到妥善解决,之前的辛苦工作恐将付之东流,甚至影...
封面图

LLM 工程师入门:生成式AI的简易指南

9 月 6 日
阅读 11 分钟
231
编者按: 大模型发展了近两年,Baihai IDP公众号也分享了近百篇LLM各环节的技术洞察,有前沿探讨、有落地实践、有应用经验。但回头来看,我们似乎从来没有认真、从0开始探讨过LLM的基本原理。最近,一些企业客户和伙伴来询问,是否有LLM的从0到1的科普贴。他们说:“虽然在很多场景中,LLM都已经渗透入我们的工作生活,但...
封面图

“创造神迹” -> “打造利器”:AI 从实验室走向市场的五大障碍

9 月 5 日
阅读 8 分钟
204
编者按: AI 能立即改变世界吗?为何巨额投资却难见成效?你是否也在思考:我们开发的 AI 产品真的解决了用户的需求吗?面对这些问题,许多公司陷入了困境:要么过于专注模型开发而忽视实际应用,要么盲目将 AI 融入产品而不考虑是否需要。这不仅导致资源浪费,更可能使我们错失 AI 真正的价值所在。本文深入剖析了 AI ...
封面图

从工程师视角看 “Multi-Agent as a Service (MAaaS)”

8 月 28 日
阅读 23 分钟
265
编者按:目前 AI Agents 在各行各业的应用前景广阔,越来越多的企业开始尝试部署 AI Agents ,然而如何在企业生产环境中有效部署和管理 AI Agents,是工程师们面临的一大挑战。你是否曾面临这样的困惑:如何确保 AI Agents 在生产环境中稳定可靠地运行?如何应对突发的高并发请求?当 AI Agents 出现"幻觉"或系统崩溃时...
封面图

「模型量化技术」可视化指南:A Visual Guide to Quantization

8 月 22 日
阅读 19 分钟
1.3k
编者按:随着大语言模型(LLMs)规模的不断扩大,如何在有限的计算资源下高效部署这些模型成为了一个迫切需要解决的问题。模型量化作为一种有效的模型压缩技术,在保持模型性能的同时大大降低了计算和存储开销,因此广受关注。但对于许多人来说,模型量化的具体原理和实现方法仍然是一个“黑盒”。我们今天为大家带来的这...
封面图

理性看待、正确理解 AI 中的 Scaling “laws”

8 月 17 日
阅读 8 分钟
504
编者按:LLMs 规模和性能的不断提升,让人们不禁产生疑问:这种趋势是否能一直持续下去?我们是否能通过不断扩大模型规模最终实现通用人工智能(AGI)?回答这些问题对于理解 AI 的未来发展轨迹至关重要。在这篇深度分析文章中,作者提出了一个令人深思的观点:单单依靠扩大模型规模来实现 AGI 的可能性几乎为零。这篇文...
封面图

Advanced RAG 11:对用户输入的内容进行「分类处理」和「再优化」

8 月 12 日
阅读 10 分钟
440
编者按: 你是否曾经遇到过这些情况:你向 AI 助手提出了一个比较复杂的问题,但它给出的回答却比较浅显,甚至完全偏离了你的意图🤔?或者,你询问了一个非常简单的问题, AI 助手却给出了一大堆不必要的信息,让你感到烦恼😣?传统的 RAG 技术虽然能有效减少 AI 回答内容中的错误,但并不能改进用户最初提交的 query 内容...
封面图

相同的 LLM 在「不同 GPU 上」会产生不同输出?为什么?

8 月 9 日
阅读 8 分钟
321
编者按: 在大语言模型(LLMs)的部署及其相关的算力扩容过程中,更换 GPU 是否也可能会对模型的输出产生重大影响?这个问题的答案对于确保 LLMs 在不同硬件环境下的一致性和可靠性至关重要。我们今天为大家带来的这篇文章,作者的核心观点是:即使在相同的开发环境、系统配置和随机种子下,不同的 GPU 也会导致 LLMs 产生...
封面图

实践出真知:Agents 领域“一年打怪升级”的经验分享

8 月 5 日
阅读 9 分钟
297
编者按:在你构建 AI Agents 时,是否曾遇到这些困扰:总是在简单任务上出错,从而让你有时会怀疑自己的技术水平?面对客户的需求,AI Agent 表现得像个“笨蛋”,无法准确理解和执行指令?随着底层模型的更新,AI Agents 的性能不升反降,让人手足无措?这些问题不仅影响了 AI Agents 的性能,甚至可能导致项目延期、成本...
封面图

汽车长翅膀:GPU 是如何加速深度学习模型的训练和推理过程的?

7 月 24 日
阅读 9 分钟
389
编者按:深度学习的飞速发展离不开硬件技术的突破,而 GPU 的崛起无疑是其中最大的推力之一。但你是否曾好奇过,为何一行简单的“.to('cuda')”代码就能让模型的训练速度突飞猛进?本文正是为解答这个疑问而作。作者以独特的视角,将复杂的 GPU 并行计算原理转化为通俗易懂的概念。从 CPU 与 GPU 的设计哲学对比,到 CUDA ...
封面图

哪些基于 LLMs 的产品值得开发?从用户体验和市场接受度的角度探讨

7 月 17 日
阅读 10 分钟
294
编者按:在大语言模型(LLMs)相关技术高速发展的今天,哪些基于 LLMs 的产品真正值得我们投入精力开发?如何从用户体验和市场接受度的角度评估这些产品的潜力?今天为大家分享的这篇文章,作者的核心观点是:优秀的产品应该将 GenAI 无缝集成到现有工作流中,引入 AI 不仅要能为用户提供高价值、变革性的体验,同时还需...
封面图

给 「大模型初学者」 的 LLaMA 3 核心技术剖析

7 月 13 日
阅读 16 分钟
1.3k
编者按: 本文旨在带领读者深入了解 LLaMA 3 的核心技术 —— 使用 RMSNorm 进行预归一化、SwiGLU 激活函数、旋转编码(RoPE)和字节对编码(BPE)算法。RMSNorm 技术让模型能够识别文本中的重点,SwiGLU 激活函数则如同“神笔”,让模型生成的文本更加突出重点且易于理解;RoPE 赋予了模型处理序列中词语位置的灵活性,而 B...
封面图

Advanced RAG 10:引入检索评估、知识精练的 CRAG 技术详解

7 月 10 日
阅读 7 分钟
1.1k
编者按:本文介绍的 CRAG 技术通过引入轻量级检索评估机制和知识精炼算法,试图解决传统检索增强生成(RAG)方法在处理复杂查询语句时存在的问题(包括检索结果不够精确、引入无关信息等),这些问题会影响模型回答的质量。CRAG 技术如何评估检索文档与用户查询之间的相关性?检索评估器的具体工作原理是什么?CRAG的知...
封面图

「多模态大模型」解读 | 突破单一文本模态局限

7 月 5 日
阅读 6 分钟
327
编者按:理想状况下,世界上的万事万物都能以文字的形式呈现,如此一来,我们似乎仅凭大语言模型(LLMs)就能完成所有任务。然而,理想很丰满,现实很骨感——数据形态远不止文字一种,大多数数据也不是以文本的形式呈现的,我们日常接触到的数据涵盖了图像、视频、音频、语音(images or video, audio, speech)等多种形...
封面图

Llama-2 vs. Llama-3:利用微型基准测试(井字游戏)评估大模型

7 月 4 日
阅读 12 分钟
311
编者按: 如何更好地评估和比较不同版本的大语言模型?传统的学术基准测试固然重要,但往往难以全面反映模型在实际应用场景中的表现。在此背景下,本文作者别出心裁,通过让 Llama-2 和 Llama-3 模型进行井字游戏对决,为我们提供了一个新颖而有趣的模型评估视角。此文不仅展示了一种创新的模型比较方法,更揭示了当前大...
封面图

检索生成(RAG) vs 长文本大模型:实际应用中如何选择?

7 月 3 日
阅读 3 分钟
526
编者按:大模型的上下文理解能力直接影响到 LLMs 在复杂任务和长对话中的表现。本期内容聚焦于两种主流技术:长上下文(Large Context Windows)和检索增强生成(RAG)。这两种技术各有何优势?在实际应用中,我们又该如何权衡选择?文章不仅详细阐述了这两种技术的工作原理,还深入分析了它们在效率、准确性和实施成本等方...
封面图

Advanced RAG 09:『提示词压缩』技术综述

6 月 29 日
阅读 36 分钟
681
编者按: 如何最大限度地发挥 LLMs 的强大能力,同时还能控制其推理成本?这是当前业界研究的一个热点课题。针对这一问题,本期精心选取了一篇关于"提示词压缩"(Prompt Compression)技术的综述文章。正如作者所说,提示词压缩技术的核心目标是压缩向 LLMs 输入的上下文信息,删减非关键内容,保留语义核心,从而在不影响...
封面图

合成数据:解锁通用人工智能的“关键之钥”?

6 月 26 日
阅读 5 分钟
1k
编者按: 人工智能技术的发展离不开高质量数据的支持。然而,现有可用的高质量数据资源已日渐接近枯竭边缘。如何解决训练数据短缺的问题,是当前人工智能领域亟待解决的一个较为棘手的问题。本期文章探讨了一种经实践可行的解决方案 —— 合成数据(Synthetic Data)。如 AlphaZero、Sora 等已初步证实了合成数据具备的巨...
封面图