大语言模型（LLMs）如何工作，在不涉及数学的情况下进行解释

主要观点：

生成式人工智能（GenAI）已不可忽视，常被主流新闻提及，如大型语言模型（LLM），很多人尝试了 ChatGPT 等。
LLM 主要工作是根据输入文本预测下一个单词（或令牌），通过令牌（基本文本单位）来工作，令牌可视为单词或字符序列，有独特标识符。
LLM 需经过训练过程，通过大量文本学习来计算下一个令牌的概率，可通过循环多次运行生成长文本序列，其生成文本可能存在“幻觉”。
训练 LLM 时常用马尔可夫链，但存在上下文窗口小等问题，可通过增加上下文窗口来改善，如今大型语言模型常用 Transformer 架构和注意力机制。
作者认为 LLM 没有推理或原创想法的能力，但能捕捉用户提示中的模式，生成的文本多来自训练数据，且拼接方式复杂，较大的 LLM 未来是否能实现真正的智能尚不确定。

关键信息：

重要细节：

用 Python 代码展示了令牌编码和解码、获取令牌预测、生成文本等过程及相关函数的实现。
举例说明了训练数据中的句子如何构建概率表及计算概率，以及不同上下文窗口大小对模型的影响。
提到 Andrej Karpathy 的Neural Networks: Zero to Hero视频系列可帮助深入理解相关数学知识，还可通过Buy me a coffee支持作者。