主要观点:
- LLM 虽用单词说话,但内部以令牌(token)思考,令牌是代表字符序列的紧凑数字 ID,理解令牌能节省费用、降低延迟和提高吞吐量。
- 子词分词在字节级粒度和全词之间找到平衡点,能捕获更丰富的统计信号且计算量小。
- 令牌生成器有多种类型,如 Byte-Pair Encoding(BPE)、WordPiece、Unigram(SentencePiece)等,各有特点。
- 提供商按令牌计费更公平,因不同字符的令牌数不同。
- 有四种技术可减少令牌预算,如微调与 PEFT、提示缓存、检索增强生成(RAG)、词汇感知写作。
- 提示缓存可加快处理速度并降低费用,不同模型的令牌化方式可能不同,要注意隐藏成本。
- 要持续测量和监控相关指标,如提示令牌数、完成令牌数等,以实时发现费用问题。
关键信息:
- 令牌是 LLM 内部处理的基本单位,不同分词方式影响令牌生成和计算量。
- 提供商按令牌计费,一些字符可能扩展为多个令牌。
- 四种减少令牌预算的技术及其作用。
- 提示缓存可提高效率和降低费用,不同模型的令牌化差异需注意。
- 要持续测量和监控相关指标以管理费用。
重要细节:
- 以“language”为例说明逐个字符预测的计算开销大,子词分词更优。
- 介绍了不同令牌生成器的算法、起始点、合并/修剪策略及著名应用。
- 如 GPT-3.5 中一个 Python 代码示例被 tokenize 为 18 个令牌但有 55 个可见字符。
- 解释了提供商按令牌计费的原因及 128k-token 上下文的含义。
- 详细说明了四种减少令牌预算的技术,如微调可将每次请求的提示令牌减少 50 - 200 个。
- 举例说明提示缓存在两个 SQL 查询请求中的作用。
- 提及不同模型家族在令牌化上的隐藏成本,如 em-dash 在不同模型中的令牌数不同。
- 介绍了要测量和监控的指标及相关工具,如 Grafana 或 Datadog。
- 还提到了高级技巧,如自适应分块、推测解码、生成时丢弃令牌等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。