解码 LLM 分词器的秘密语言

主要观点:

  • LLM 虽用单词说话,但内部以令牌(token)思考,令牌是代表字符序列的紧凑数字 ID,理解令牌能节省费用、降低延迟和提高吞吐量。
  • 子词分词在字节级粒度和全词之间找到平衡点,能捕获更丰富的统计信号且计算量小。
  • 令牌生成器有多种类型,如 Byte-Pair Encoding(BPE)、WordPiece、Unigram(SentencePiece)等,各有特点。
  • 提供商按令牌计费更公平,因不同字符的令牌数不同。
  • 有四种技术可减少令牌预算,如微调与 PEFT、提示缓存、检索增强生成(RAG)、词汇感知写作。
  • 提示缓存可加快处理速度并降低费用,不同模型的令牌化方式可能不同,要注意隐藏成本。
  • 要持续测量和监控相关指标,如提示令牌数、完成令牌数等,以实时发现费用问题。

关键信息:

  • 令牌是 LLM 内部处理的基本单位,不同分词方式影响令牌生成和计算量。
  • 提供商按令牌计费,一些字符可能扩展为多个令牌。
  • 四种减少令牌预算的技术及其作用。
  • 提示缓存可提高效率和降低费用,不同模型的令牌化差异需注意。
  • 要持续测量和监控相关指标以管理费用。

重要细节:

  • 以“language”为例说明逐个字符预测的计算开销大,子词分词更优。
  • 介绍了不同令牌生成器的算法、起始点、合并/修剪策略及著名应用。
  • 如 GPT-3.5 中一个 Python 代码示例被 tokenize 为 18 个令牌但有 55 个可见字符。
  • 解释了提供商按令牌计费的原因及 128k-token 上下文的含义。
  • 详细说明了四种减少令牌预算的技术,如微调可将每次请求的提示令牌减少 50 - 200 个。
  • 举例说明提示缓存在两个 SQL 查询请求中的作用。
  • 提及不同模型家族在令牌化上的隐藏成本,如 em-dash 在不同模型中的令牌数不同。
  • 介绍了要测量和监控的指标及相关工具,如 Grafana 或 Datadog。
  • 还提到了高级技巧,如自适应分块、推测解码、生成时丢弃令牌等。
阅读 70
0 条评论