大模型时代，什么是tokens？

前言

在当今大模型主导的人工智能浪潮中，我们见证了诸多令人惊叹的应用。

从精准流畅的语言翻译，到能够根据简单提示创作出富有创意故事的文本生成工具，大模型展现出了强大的能力。

然而，在这些复杂且神奇的模型背后，有一个基础而关键的概念——tokens，它犹如大模型世界的基石，支撑着整个模型的运行与发展。

理解tokens，对于我们深入认识大模型如何处理信息、优化性能以及合理应用都有着至关重要的意义。

介绍

什么是tokens

Tokens可以简单理解为大模型处理文本时划分的基本单元。

在自然语言处理中，人类使用的语言是连续且复杂的，大模型无法直接对整个句子或篇章进行处理。

因此，需要将文本分割成一个个小的部分，这些小部分就是tokens。

例如，在英语中，单词“apple”可以是一个token；对于一些包含多个单词的短语，如“New York”，也可以被视为一个token。

在中文里，情况会稍微复杂一些，因为中文不像英文那样有天然的空格来分隔单词。

此时，可能会按字进行划分，比如“我喜欢苹果”这句话，会被划分成“我”“喜”“欢”“苹”“果”这几个token；也可能根据语义，将“喜欢”这样常用的词作为一个token进行划分。

tokens在大模型中的作用

大模型通过对大量tokens的学习来掌握语言模式和语义信息。

在训练过程中，模型会统计每个token出现的频率以及与其他token的关联关系。

比如，如果一个模型在大量文本中发现“猫”这个token经常与“老鼠”“牛奶”等token一起出现，它就能逐渐理解这些词汇之间的语义联系。

当模型在进行文本生成或其他任务时，会根据已经学习到的token模式来预测下一个可能出现的token，从而生成连贯且符合逻辑的文本。

例如，当模型接收到“我去超市买了一些”这样的输入时，基于对token关联的学习，它可能会生成“水果”“日用品”等合理的后续token。

计算方式

基于字符的计算

一种简单的计算tokens的方式是基于字符。

在这种方法中，文本中的每个字符都被视为一个token。

例如，对于字符串“Hello, world!”，它包含13个字符（包括逗号和感叹号），那么就会被划分为13个token。

这种计算方式虽然简单直接，但在处理自然语言时存在明显的局限性。

因为自然语言是以词汇和语义为基础的，单纯按字符划分无法体现单词或短语的整体性，对于模型理解语义帮助不大。

基于词汇的计算

更常用的方式是基于词汇来计算tokens。

在英语中，通常以空格作为分隔符，将句子分割成一个个单词，每个单词就是一个token。

例如，句子“The dog runs fast”会被划分为4个token，分别是“The”“dog”“runs”“fast”。

对于一些包含特殊符号或连字符的单词，可能需要根据具体规则进行处理。

比如“mother - in - law”，一般会将其视为一个token。

在中文基于词汇的计算中，需要借助分词工具，如jieba分词。

通过分词工具，可以将中文句子按语义分割成一个个词语，每个词语作为一个token。

例如，使用jieba分词对“我喜欢吃苹果”进行处理，会得到“我”“喜欢”“吃”“苹果”这4个token。

字节对编码（BPE）计算

字节对编码（Byte - Pair Encoding，BPE）是一种在大模型中广泛应用的计算tokens的方法，尤其适用于处理多种语言和未登录词。

它的基本思想是从字符开始，逐步合并出现频率较高的字符对，形成新的token。

例如，假设有文本“low”“lower”“newer”“wider”，最开始每个字符是一个token。

随着合并过程进行，发现“er”这个字符对出现频率较高，就将其合并为一个新的token。

这样，“lower”就可以表示为“low”和“er”两个token，“newer”表示为“new”和“er”两个token。

BPE算法能够在一定程度上平衡词汇表大小和对未登录词的处理能力，提高模型的效率和性能。

总结

Tokens作为大模型处理文本的基本单元，贯穿于大模型的训练、推理等各个环节。

不同的计算方式各有优劣，基于字符的计算简单但不实用，基于词汇的计算符合人类语言习惯但在处理未登录词等方面存在不足，字节对编码则在两者之间找到了较好的平衡。

理解tokens及其计算方式，有助于我们更好地优化大模型的训练数据、调整模型参数，从而提升模型在各种自然语言处理任务中的表现。

在大模型不断发展创新的今天，深入研究tokens这一基础概念，对于推动人工智能在语言领域的应用和发展具有不可忽视的重要性。

大模型时代，什么是tokens？