大语言模型(LLMs)如何工作,在不涉及数学的情况下进行解释

主要观点:

  • 生成式人工智能(GenAI)已不可忽视,常被主流新闻提及,如大型语言模型(LLM),很多人尝试了 ChatGPT 等。
  • LLM 主要工作是根据输入文本预测下一个单词(或令牌),通过令牌(基本文本单位)来工作,令牌可视为单词或字符序列,有独特标识符。
  • LLM 需经过训练过程,通过大量文本学习来计算下一个令牌的概率,可通过循环多次运行生成长文本序列,其生成文本可能存在“幻觉”。
  • 训练 LLM 时常用马尔可夫链,但存在上下文窗口小等问题,可通过增加上下文窗口来改善,如今大型语言模型常用 Transformer 架构和注意力机制。
  • 作者认为 LLM 没有推理或原创想法的能力,但能捕捉用户提示中的模式,生成的文本多来自训练数据,且拼接方式复杂,较大的 LLM 未来是否能实现真正的智能尚不确定。

关键信息:

  • GPT-2 使用 50257 个令牌,不同形式的“the”编码为不同令牌,一些低频词需用多个令牌编码。
  • 训练 LLM 时用各种算法如字节对编码(BPE)生成令牌词汇表,训练数据中的成对连续令牌用于构建概率表。
  • 马尔可夫链训练方法存在上下文窗口小的问题,GPT-2 上下文窗口为 1024 令牌,如今 GPT-4 上下文窗口达 128K 令牌。
  • 神经网络可替代概率表,通过反向传播调整参数进行训练,GPT-2 约有 15 亿参数,GPT-3 达 1750 亿,GPT-4 约 1.76 万亿。
  • Transformer 架构的注意力机制可帮助 LLM 找到上下文窗口中令牌的关系和模式,从而影响下一个令牌的概率。

重要细节:

  • 用 Python 代码展示了令牌编码和解码、获取令牌预测、生成文本等过程及相关函数的实现。
  • 举例说明了训练数据中的句子如何构建概率表及计算概率,以及不同上下文窗口大小对模型的影响。
  • 提到 Andrej Karpathy 的Neural Networks: Zero to Hero视频系列可帮助深入理解相关数学知识,还可通过Buy me a coffee支持作者。
阅读 13
0 条评论