解码 LLM 分词器的秘密语言 - SegmentFault 思否

解码 LLM 分词器的秘密语言

发布于 7 月 10 日

主要观点：

LLM 虽用单词说话，但内部以令牌（token）思考，令牌是代表字符序列的紧凑数字 ID，理解令牌能节省费用、降低延迟和提高吞吐量。
子词分词在字节级粒度和全词之间找到平衡点，能捕获更丰富的统计信号且计算量小。
令牌生成器有多种类型，如 Byte-Pair Encoding（BPE）、WordPiece、Unigram（SentencePiece）等，各有特点。
提供商按令牌计费更公平，因不同字符的令牌数不同。
有四种技术可减少令牌预算，如微调与 PEFT、提示缓存、检索增强生成（RAG）、词汇感知写作。
提示缓存可加快处理速度并降低费用，不同模型的令牌化方式可能不同，要注意隐藏成本。
要持续测量和监控相关指标，如提示令牌数、完成令牌数等，以实时发现费用问题。

关键信息：

令牌是 LLM 内部处理的基本单位，不同分词方式影响令牌生成和计算量。
提供商按令牌计费，一些字符可能扩展为多个令牌。
四种减少令牌预算的技术及其作用。
提示缓存可提高效率和降低费用，不同模型的令牌化差异需注意。
要持续测量和监控相关指标以管理费用。

重要细节：

以“language”为例说明逐个字符预测的计算开销大，子词分词更优。
介绍了不同令牌生成器的算法、起始点、合并/修剪策略及著名应用。
如 GPT-3.5 中一个 Python 代码示例被 tokenize 为 18 个令牌但有 55 个可见字符。
解释了提供商按令牌计费的原因及 128k-token 上下文的含义。
详细说明了四种减少令牌预算的技术，如微调可将每次请求的提示令牌减少 50 - 200 个。
举例说明提示缓存在两个 SQL 查询请求中的作用。
提及不同模型家族在令牌化上的隐藏成本，如 em-dash 在不同模型中的令牌数不同。
介绍了要测量和监控的指标及相关工具，如 Grafana 或 Datadog。
还提到了高级技巧，如自适应分块、推测解码、生成时丢弃令牌等。

Decoding the Secret Language of LLM Tokenizers

https://dzone.com/articles/llm-tokenization-costs-performance

阅读 304

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。