大语言模型 (Large Language Model, LLM),旨在理解和生成人类语言。在大量文本数据上进行训练,可执行广泛的任务,包括文本总结、翻译、情感分析等等。今年爆火出圈的 ChatGPT 即为一个大语言模型,而 LIama-2 的出现又为 LLM 市场带来了一些「震撼」。
Llama-2 模型
7月18日,Meta 与微软联手发布了免费、可直接商用的 LLM 模型——Llama2。Facebook 人工智能研究院首席科学家、图灵奖得主 Yann LeCun 表示:"This is going to change the landscape of the LLM market",给足了用户神秘感。
Llama-2 是一组经过预训练和微调的生成文本模型,参数范围从 70 亿到 700 亿。经过微调的 LLM,称为 Llama-2-Chat。在官方描述中 Llama-2-Chat 在大多数基准测试中都优于开源聊天模型,与 ChatGPT 和 PaLM 等一些流行的封闭源代码模型不相上下。[1]与此同时,使用者可以直接向 AWS、Hugging Face 申请来获得模型的下载链接。
与此同时,最近大火的 AI agent 也可以应用在 Llama-2 上。AI Agent 通俗来讲就是 LLM(大语言模型)Agent。LLM Agent 可以被理解为一种智能助手,可以连接众多数据源,并通过 API 与环境进行交互。相当于一个可以自行执行任务的机器人。AI agent 可以使用各种工具来帮助你完成任务。我们甚至可以设计和创建自己的自定义工具,让 agent 更好的服务我们的工作。
Llama-2 Notebook
无需等待,在本期中,我们为你带来了轻松上手的 Llama-2-7B 大语言模型以及结合 Langchain 打造 AI agent 的两篇 Notebook。
使用私有部署的 LLM,一方面无需等待网络延迟,不受供应商的请求或频率限制,享受更流畅的对话体验;另一方面,你可以通过微调来根本上定制你的模型角色,以提高模型的准确性和相关性,并有效地保护了你的数据。
这篇 Notebook 中无需读者下载模型、设置参数,只需点击一键运行,一分钟就能成功部署,并使用在线对话框与你的 Llama2 模型对话。点击下方图片,即刻感受专属于你的 「AI 助手」:
与此同时,在下面这篇 Notebook 中我们将会使用 Langchain 与 Llama-2-7B 相结合打造一个 AI agent ,用户可以通过设置工具的功能描述来修改 agent 的功能,以实现更定制化的功能:
Tips|大语言模型的诞生之路
训练大语言模型的过程通常分为两个主要步骤:预训练和微调。
- 在预训练阶段,模型会从一个巨大的、多样化的数据集中进行学习,这个数据集通常包含来自不同来源的数十亿个词汇,例如网站、书籍和文章。这个阶段允许模型学习一般的语言模式和表征。
- 在微调阶段,模型会在与目标任务或领域相关的更具体、更小的数据集上进行进一步的训练。这有助于模型微调其理解,并适应任务的特殊要求。
图|近年来现有大型语言模型(大于10B)的时间图(黄色部分为开源模型)
Source: https://arxiv.org/abs/2303.18223
Reference
[1] https://huggingface.co/meta-llama/Llama-2-13b-chat-hf
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。