一个 ChatGPT 的克隆版，用 3000 字节的 C 语言编写，由 GPT-2 提供支持

这是一个无依赖的 GPT-2 实现程序，约 3000 字节的 C 代码实现了 GPT-2 的主要功能，包括加载权重矩阵和 BPE 文件、字节对编码输入、实现基本线性代数包、定义 Transformer 架构、进行 Transformer 推理以及用 BPE 解码器解码输出等。

主要观点和关键信息：

程序用 C 实现了 GPT-2，优化后 GPT-2 Small 在现代机器上每个回复只需几秒，通过实现 KV 缓存和高效矩阵乘法算法，并可选 OMP 并行化达到。
程序由多个主要模块组成，如基本矩阵数学库、快速矩阵乘法、神经网络层、Transformer 模型、字节对编码、I/O 等。
介绍了 ChatGPT 和 Transformer 的背景，此 C 程序用 2019 年的较弱模型 GPT-2 实现 ChatGPT 的行为。
详细阐述了 C 代码的各个部分，包括矩阵数学、快速矩阵乘法、神经网络层、Transformer 架构、字节对编码、权重加载等，每个部分都有相应的代码实现和解释。
展示了如何将简单的线性时间算法转化为潜在的指数时间算法来实现字节对编码。

重要细节：

总之，该程序展示了如何将机器学习的几十年进展浓缩到几千字节的代码中，体现了简单神经网络的实现方式。