以 Nano-vLLM 为例,深入理解 LLM 推理引擎(Part 1)

4 月 14 日
阅读 7 分钟
109
编者按: 你是否也曾在深夜调试大语言模型服务时,对着飙升的延迟和捉襟见肘的 GPU 显存一筹莫展?为什么同样的模型,在线服务商能支撑高并发,而你自建的推理服务却频频超时?当你试图通过增大 batch size 提升吞吐量时,却换来首字延迟的恶性膨胀 —— 这些问题的根源,往往藏在黑盒般的推理引擎内部。这篇文章没有停留...
封面图

微软多模态推理模型 Phi-4-reasoning-vision 训练经验分享

4 月 10 日
阅读 12 分钟
323
编者按: 当多模态模型不断朝着更大参数、更长推理路径的方向演进时,我们是否忽略了“轻量、高效、实用”这一同样重要的维度?今天为大家带来的文章,作者的观点是:通过精细化数据设计与混合推理策略,可以训练出一款在性能与成本之间实现理想平衡的小型多模态推理模型。文章围绕微软最新开源的 Phi-4-reasoning-vision-...
封面图

解构 MCP 的伪需求与 CLI 的真价值

4 月 1 日
阅读 3 分钟
281
编者按: 当 Anthropic 推出 Model Context Protocol(MCP)时,整个行业都在欢呼 —— 但如果我们冷静下来追问:一个专门为 LLM 设计的协议,真的比历经数十年打磨的命令行工具更适合智能体吗?我们今天为大家带来的这篇文章,作者的核心观点是 MCP(模型上下文协议)并非必要,传统的 CLI(命令行工具)才是 LLM 工具调...
封面图

LLM 存在的一些问题,人类就不存在吗?

3 月 25 日
阅读 3 分钟
320
编者按: 当我们在习惯性地挑剔大语言模型(LLM)的种种缺陷时,如果反转视角,用评价AI的严苛技术指标来衡量人类自身的认知与对话能力,我们还能通过这场针对“智能”的测试吗?我们今天为大家带来的文章,作者的观点是:随着大语言模型的飞速进化与人类能力的相对停滞,那些曾被视为AI“缺陷”的行为特征,如今反而在人类...
封面图

OpenClaw 架构详解 · 第二部分:并发、隔离以及确保智能体正常运行的不变量(Invariants)

3 月 20 日
阅读 6 分钟
365
编者按: 为什么你的 AI 智能体总是在生产环境中悄无声息地出错,甚至在你睡觉时做出不可预测的行为?我们今天为大家带来的文章,作者的观点是:构建可靠 AI 智能体系统的关键,不在于精巧的提示词,而在于通过强制执行少量核心不变量(Invariants)来管理并发和状态,将自主性约束在可控范围内。文章重点介绍了 OpenCla...
封面图

OpenClaw 架构详解 · 第一部分:控制平面、会话管理与事件循环

3 月 18 日
阅读 6 分钟
488
编者按: 当我们惊叹于OpenClaw仿佛“活过来”般的自主行为时,我们究竟在惊叹什么——是模型真的拥有了某种意识,还是我们被某种精妙的工程机制“欺骗”了?今天为大家带来的这篇文章,作者给出了一个清晰而坚定的答案:OpenClaw 的“自主性”并非源于神秘的涌现能力,而是一套严谨、可解释的事件驱动架构所带来的工程成果。本...
封面图

目前市场上似乎只有三类真正可行的 AI 产品

3 月 13 日
阅读 7 分钟
307
编者按: 在大模型技术狂飙突进的今天,市面上层出不穷的 AI 产品,究竟有多少是真正跑通了商业闭环的“硬通货”,又有多少只是包装精美的“伪需求”?我们今天为大家带来的文章,作者给出了一个犀利而冷静的判断:在喧嚣的 AI 热潮背后,目前真正行之有效的大语言模型产品仅有 Chatbots、智能补全产品和智能体这三类。文章...
封面图

为什么 AI 巨头们放弃私有壁垒,争相拥抱 Agent Skills

3 月 11 日
阅读 13 分钟
438
编者按: 在 AI 智能体赛道竞争白热化的今天,为何巨头们会突然放弃私有壁垒,共同拥抱同一套技术标准?我们今天为大家带来的文章,作者的观点是:Agent Skills 之所以能在 90 天内从私有功能演变为行业标准,关键在于其“渐进式披露”的架构设计解决了 Token 经济学痛点,以及“一次编写,处处运行”的可移植性打破了平台壁...
封面图

在 Anthropic 的这两年,我学会了 13 件事

3 月 6 日
阅读 2 分钟
340
The Dance Class by Edgar Degas, 1874作者 | Karina Nguyen编译 | 岳扬我确定,Anthropic 再也不会是我当初加入时的那个样子了,而我自己也变了很多。大约两年前,我以前端工程师的身份加入,当时公司只有大约 50 人。而当我离开时,已是一名研究员,公司规模已超过 700 人。期间我学到的东西是:1)一个团队前进的速度...
封面图

回头看 RLHF、PPO、DPO、GRPO 与 RLVR 的发展路径

3 月 4 日
阅读 4 分钟
469
编者按: 当我们在惊叹AI竟能自主推导数学定理、重构百万行代码时,是否还该用“它不过是在猜下一个词”来解释这一切?这种始于2023年的简化论调,如今是否已成了我们理解智能本质的认知枷锁?我们今天为大家带来的文章,作者的核心观点是:现代大模型早已超越“Next Token Prediction”的原始范式,正通过 RLVR 等优化机制...
封面图

HackerNews 热榜第一名:AGI 的 A,原来代表的是 Ads(广告)

2 月 28 日
阅读 7 分钟
467
编者按: 当全球顶尖的人工智能实验室手握数千亿美元估值、剑指通用人工智能(AGI)的终极愿景时,你是否想过——我们花费巨额算力与顶尖人才所培育的"超级大脑",其商业化的第一站究竟会通向何方?是彻底颠覆生产力的工具平台,还是另一个更精准、更隐蔽、更具侵入性的广告分发引擎?文章以详实的数据拆解了 OpenAI 2025 ...
封面图

Prompt caching 技术是如何实现 1 折的推理成本优化的?

2 月 13 日
阅读 15 分钟
657
编者按: 你是否曾好奇过,那些声称能将长文本输入成本降低90%、延迟减少85%的"Prompt Caching"技术,背后究竟缓存了什么?是简单的文本复用,还是某种更深层的计算优化?我们今天为大家带来的文章,作者的核心观点是:Prompt Caching的本质并非简单的文本字符串缓存,而是对Transformer注意力机制中Key-Value(KV)矩阵...
封面图

分享一些编程助手使用过程中的经验教训与观察思考

2 月 11 日
阅读 4 分钟
617
编者按: 文章内容涵盖作者近18个月的深度实践观察:首先,作者指出AI助手在主流语言代码生成、长期任务连贯性方面取得显著突破,但在UI框架抽象层处理上仍显笨拙;其次,他揭示了模型“求快”的默认性格需通过“惯用性”提示词加以约束,并惊叹于Opus 4.5与GPT 5.2在Bug定位上的惊人能力,但也警示,过度依赖AI会导致开发者...
封面图

GPU 应该怎么选择?写给 AI 工程师的 GPU 选型指南

2 月 6 日
阅读 9 分钟
625
编者按: 在 AI 大模型浪潮中,GPU 选型究竟隐藏着哪些工程师必须掌握的核心门道?我们今天为大家带来的文章,作者的核心观点是:GPU 并非一个黑箱式的整体产品,而是一个由微架构、内存子系统与互联方式共同构成的复杂技术系统 —— 只有理解其内在结构,AI 工程师才能做出真正高效、可扩展的硬件选择。文章首先从“计算能...
封面图

Claude Code中的Commands→Skills→Agents是进阶路径?你可能理解错了

2 月 4 日
阅读 10 分钟
795
编者按: 在 Claude Code 中,我们到底该用 Command、Skill 还是 Agent?这三者究竟是新手到高手的进阶阶梯,还是各司其职的协作组件?我们今天为大家带来的文章,作者的观点是:Commands、Skills 和 Agents 并非技能等级,而是同一系统中分别负责“何时触发”与“执行什么”的三种协同角色。文章深入剖析了三者的本质区别:...
封面图

强化学习比你想象的还要更为低效...

1 月 30 日
阅读 6 分钟
635
编者按: 为什么在强化学习(RL)中,模型往往需要消耗比有监督学习多出数个数量级的计算资源,却只能换来看似微薄的性能提升,且常常陷入训练不稳定的泥潭?本文从信息论角度出发,对比了有监督学习与强化学习在单位样本中可获取信息量的根本差异:前者通过明确的正确标签直接提供高信息密度的学习信号,而后者仅依赖二...
封面图

微调后的Qwen3-4B在多项基准测试上战平或胜过GPT-OSS-120B

1 月 28 日
阅读 5 分钟
724
编者按: 如果你正在为边缘计算、本地部署或资源受限场景寻找高效的语言模型解决方案,你是否曾困惑:在众多小型语言模型(SLM)中,哪一个才是微调的最佳起点?是否真的存在“小而强”的模型,能在微调后媲美甚至超越规模大数十倍的教师模型?近期,distil labs 团队进行了一项严谨的基准研究,或许能为你提供数据驱动的...
封面图

Skills 与延迟加载工具定义的 MCP,目前哪个更高效、稳定和可控?

1 月 23 日
阅读 3 分钟
631
编者按: 我们今天为大家带来的这篇文章,作者的核心观点是:相较于依赖复杂且高成本的动态 MCP 工具加载机制,以 Skills 为核心的能力摘要与自维护模式,在当前阶段反而更加高效、稳定且可控。文章系统梳理了延迟工具加载(deferred tool loading)的工程现实与限制,指出即便工具可以延后注入,对话级别的工具集合仍然...
封面图

英伟达财报之外:一个正在松动的 AI 权力结构

1 月 21 日
阅读 4 分钟
599
编者按: 英伟达财报的营收神话是否掩盖了其现金流恶化的现实?而在“循环融资”的质疑声中,OpenAI 与甲骨文等关键客户的供应链“去英伟达化”浪潮,又将如何重塑 AI 硬件的竞争格局?我们今天为大家带来的这篇文章,作者的观点是:英伟达目前的高速增长依赖于激进的库存策略和宽松的信用条款,但其最大客户正通过定制芯片...
封面图

如何减少单智能体输出结果的不确定性?利用并行智能体的“集体智慧”

1 月 16 日
阅读 5 分钟
612
编者按: 当 AI 智能体给出的解决方案时好时坏,我们该如何突破这种不确定性的困境?我们今天为大家带来的文章,作者的观点是:单一智能体的运行本质上是一次随机采样,而通过并行运行多个智能体并综合其输出结果,可以将编码任务从“靠运气抽签”转变为对最优解的系统性探索。文章首先剖析了传统上下文工程的局限 —— 尽管...
封面图

智能体的构建依然是个“脏活累活”...

1 月 16 日
阅读 5 分钟
582
编者按: 构建真正可靠的智能体(Agent)为什么依然如此困难?尽管大模型能力日新月异,工具调用、多步推理、状态管理等核心环节却仍充满“脏活累活” —— 是抽象层不够好?平台差异太大?还是我们尚未找到正确的工程范式?我们今天为大家带来的这篇文章,作者以一线实践者的视角明确指出:在智能体开发生态远未成熟的当下...
封面图

如何判断一个 AI 套壳产品,值不值得做?

1 月 9 日
阅读 6 分钟
698
编者按: AI 套壳应用究竟只是“调个 API 就上线”的投机产物,还是隐藏着被忽视的创业机会与产品逻辑?今天我们为大家带来的这篇文章,作者的核心观点是:“AI 套壳产品”不应被简单贬低,其能否持续生存取决于它是否嵌入用户工作流、积累专有数据、占据分发渠道,以及所处细分市场的规模是否足以抵御巨头竞争。文章首先区...
封面图

Andrej Karpathy:2025 年 LLM 领域的六项范式转变

1 月 9 日
阅读 5 分钟
1.2k
编者按: 我们今天为大家带来的文章,作者的核心观点是:2025 年大语言模型的真正突破不在于参数规模的扩张,而在于训练范式、智能形态与应用架构的深层转变 —— 尤其是基于可验证奖励的强化学习(RLVR)、AI 作为“幽灵”而非“动物”的认知重构,以及面向垂直场景的新型 LLM 应用层的崛起。文章系统回顾了 2025 年 LLM 领域...
封面图

AI 算力是一种需要被定价、对冲和交易的风险资产?

1 月 7 日
阅读 3 分钟
708
编者按: 当所有人都将 AI 算力视为下一个云计算风口时,我们是否忽略了它本质上是一种需要被定价、对冲和交易的风险资产?我们今天为大家带来的这篇文章,作者的核心观点是:前沿AI算力已超出传统云服务范畴,其不确定性、时效性与稀缺性更接近大宗商品与金融衍生品,未来竞争的关键不在优化服务,而在设计承载算力风险...
封面图

靠更换嵌入模型,该产品将 RAG 延迟降低了50%

2025-12-26
阅读 3 分钟
846
编者按: 在 RAG 系统中,一味追求更高维的嵌入模型真的意味着更好的性能吗?文章重点介绍了 MyClone 将原有 1536 维的 OpenAI text-embedding-3-small 模型替换为 512 维的 Voyage 3.5 Lite 嵌入模型,从而实现 RAG 延迟与存储成本的大幅降低,还能在保持甚至提升检索质量的同时,明显改善用户体验。技术的选择从来不只...
封面图

LLM 扩展方式的三年演进之路:复杂之后,回归简单

2025-12-24
阅读 6 分钟
840
编者按: 在当前 LLM 能力日益增强、扩展方式不断演进的背景下,我们是否正在走向一种“越复杂越强大”的技术路径?抑或,真正的突破恰恰源于回归简单与通用?今天我们为大家带来的文章指出,尽管过去三年间出现了从插件、上下文协议、记忆功能等多种扩展机制,但最终的趋势很可能是:赋予智能体通用的计算能力,并相信它...
封面图

你说的 CUDA 到底是哪个 CUDA?一文理清那些让人混淆的术语和版本号

2025-12-19
阅读 15 分钟
1.4k
编者按: 你是否曾经在配置 CUDA 环境时被“driver version mismatch”或“no kernel image for device”这类错误困扰,却难以厘清“CUDA 版本”、“驱动版本”、“计算能力”之间的复杂关系?为何 nvidia-smi、nvcc 和 PyTorch 报告的“CUDA 版本”常常不一致?我们今天为大家带来的文章,作者的观点是:CUDA 生态系统的混乱根源在...
封面图

对长上下文能力有不同要求,怎么选择合适的模型?

2025-12-17
阅读 6 分钟
1.2k
编者按: 当一项技术的参数指标成为行业焦点,我们是否容易落入“数字迷信”的陷阱?在大语言模型竞相宣传“百万级上下文窗口”的今天,更长是否真的意味着更强?我们今天为大家带来的这篇文章,作者的核心观点是:上下文窗口的长度并不能完全代表模型的实际能力,真正决定模型在长文本场景下表现的是其背后的架构设计与技术...
封面图

压缩而不失智:LLM 量化技术深度解析

2025-12-12
阅读 7 分钟
1.4k
编者按: 如何在资源受限的设备上高效部署大语言模型,同时还尽可能保持其性能表现?我们今天为大家带来的这篇文章,作者的核心观点是:量化技术通过在模型精度与效率之间寻找最优平衡点,使得大语言模型能够在资源受限的设备上高效部署,而几乎不降低其“智能水平”。文章从量化的基本原理出发,深入剖析了训练后量化(PT...
封面图

AI 处理器全景指南(CPU、GPU、TPU、APU、NPU、IPU、RPU...)

2025-12-10
阅读 11 分钟
3.9k
编者按: 当大模型的算力需求呈指数级增长,GPU 还是唯一答案吗?在 AI 硬件军备竞赛愈演愈烈的今天,是否存在更高效、更专精、甚至更具颠覆性的替代方案?我们今天为大家带来的文章,作者的核心观点是:AI 硬件生态正在迅速多元化,除了广为人知的 CPU、GPU 和 TPU 之外,一系列新兴架构 —— 如 ASIC、NPU、IPU、FPGA 乃...
封面图