2024 年大型语言模型(LLM)领域进展:
- GPT-4 屏障被突破:18 个组织的模型在 Chatbot Arena 排行榜上超越 GPT-4,如谷歌 Gemini 1.5 Pro 引入新能力,Anthropic 的 Claude 3 系列不断升级,模型输入长度增加使解决问题范围扩大,如今 GPT-4-0314 已降至约 70 名。
- 部分 GPT-4 模型可在笔记本电脑运行:作者的 64GB M2 MacBook Pro 能运行多个 GPT-4 类模型,如 Qwen2.5-Coder-32B 和 Meta 的 Llama 3.3 70B,Meta 的 Llama 3.2 系列在小尺寸下性能出色,可在 iPhone 上运行。
- LLM 价格暴跌:过去一年,运行顶级托管 LLM 的成本大幅下降,如 OpenAI 的模型价格大幅降低,其他模型提供商价格更低,价格下降由竞争和效率提高驱动,环境影响担忧有所缓解,如处理 68,000 张照片的成本仅约 1.68 美元。
- 多模态视觉兴起:2024 年几乎每个重要模型供应商都发布了多模态模型,从 GPT-4 Vision 到 Gemini 1.5 Pro 等,作者的 LLM CLI 工具也支持多模态模型,多模态应用为 LLM 提供了新的应用方式。
- 语音和实时摄像头模式出现:音频和实时视频模式开始出现,如 OpenAI 的 GPT-4o 语音模式和 Google 的 Gemini 音频输入输出,以及 Amazon 的语音模式预公告,最近还有 ChatGPT 的实时视频功能,这些功能的 API 也逐渐完善,易用性提高。
- 提示驱动应用生成已成为商品:GPT-4 就可实现提示驱动应用生成,2024 年其价值更加明显,如 Anthropic 的 Claude Artifacts、GitHub 的 Spark、Mistral Chat 的 Canvas 等,作者也在自己的项目中进行了尝试,预计该功能将在 2025 年广泛应用。
- 通用访问最佳模型仅持续数月:今年初 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro 可免费使用,后 OpenAI 推出 ChatGPT Pro 订阅服务,付费才能使用其最强大的模型,免费访问最佳模型的时代可能已结束。
- “代理”仍未真正实现:“代理”一词缺乏明确含义,人们对其效用持怀疑态度,主要存在两种对“代理”的理解,即行动代理和工具使用代理,同时面临轻信问题和提示注入等挑战,目前“代理”仍处于“即将推出”状态。
- 评估很重要:编写良好的 LLM 评估是构建有用应用的关键技能,拥有强大的评估套件可使团队更快采用新模型、更好迭代并构建更可靠的产品,但仍缺乏良好的实施指导。
- 苹果智能表现不佳,MLX 库出色:作为 Mac 用户,作者对苹果平台在运行模型方面的表现感受复杂,llama.cpp 生态有所帮助,而 Apple 的 MLX 库表现出色,支持在 Mac 上运行多种 MLX 兼容模型,但苹果的“Apple Intelligence”功能表现较弱。
- 推理缩放“推理”模型兴起:2024 年最后一季度引入新的 LLM 形状,如 OpenAI 的 o1 模型,通过在推理时花费更多计算来处理更难的问题,OpenAI 的 o3 模型即将推出,其他公司如 Google、Alibaba 和 DeepSeek 也推出了类似模型,Meta 也发表了相关论文。
- 最佳 LLM 训练成本接近 600 万美元:DeepSeek v3 是一个 685B 参数的大型模型,训练成本约 557.6 万美元,远低于 Meta 的 Llama 3.1,这表明训练成本在下降,同时也受到美国对 GPU 出口限制的影响。
- 环境影响有好有坏:模型效率提高使运行提示的能源使用和环境影响大幅下降,如 OpenAI 价格降低,谷歌 Gemini 和亚马逊 Nova 运行提示不亏本,但未来基础设施的竞争建设对环境影响较大,如科技公司的新数据中心建设可能导致金融崩溃和环境破坏。
- “slop”之年:“slop”成为描述未经请求和未经审查的 AI 生成内容的术语,作者对此进行了定义和讨论,并在媒体上被引用,该词甚至入围牛津年度词汇,但最终输给了“brain rot”。
- 合成训练数据效果良好:AI 实验室越来越多地使用合成内容训练模型,如 Phi-4 技术报告所述,合成数据具有结构和渐进学习的优势,许多实验室还使用大型模型创建训练数据,精心设计训练数据对创建 LLM 至关重要。
- LLM 使用难度增加:LLM 看似简单易用,但实际上需要深入理解和经验才能充分利用,2024 年可用系统增多,模型能力提升但局限性仍在,大多数用户缺乏指导,容易产生误解,需要更多教育内容来帮助用户。
- 知识分布严重不均:大多数人听说过 ChatGPT,但知道 Claude 的人较少,技术变化迅速,很多人尚未尝试新的功能,这种知识差距对社会有影响,需要努力改善。
- LLM 需要更好的批评:很多人对 LLM 持否定态度,认为其存在环境影响、伦理问题等,但也需要承认其有好的应用,帮助人们学会负责任地使用,避免陷阱,理解其价值需要指导。
作者还列出了 2024 年在其博客上标记为“llms”的所有长文:包括多个月份关于各种 LLM 相关主题的文章,如模型比较、应用开发、技术探索等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。