微软发布Orca 2 LLM
微软研究院发布了Orca 2 LLM,这是一个基于Llama 2微调的模型,其性能与参数量是其10倍的模型相当甚至更好。Orca 2使用了合成训练数据集和一种名为Prompt Erasure的新技术来实现这一性能。
教师-学生训练方案
Orca 2模型采用教师-学生训练方案,其中更大、更强大的LLM作为教师,较小的学生LLM通过学习教师的推理技术来提高性能。教师模型被赋予复杂的提示来触发特定推理行为,而学生模型只接收任务要求和期望响应,不接收教师的提示,这种技术称为Prompt Erasure。
性能表现
在基准测试中,13B参数的Orca 2模型比基线13B参数的Llama 2模型性能提高了47.54%。7B参数的Orca 2在推理任务上表现与70B参数的Llama 2相当或更好。
与其他方法的比较
尽管像ChatGPT这样的LLM在少样本提示下通常表现良好,但由于其内存和计算需求,部署这些模型具有挑战性。较小的模型在微调后也能表现良好,许多研究人员已经探索使用由更大LLM生成的合成数据集来训练这些模型。例如,谷歌的Distilling Step-by-Step方法和Stability AI的Stable Beluga模型。
新方法:谨慎推理
Orca 2的训练数据集由教师LLM生成,教师LLM被赋予详细的提示。微软称之为谨慎推理的新方法将训练任务与提示配对,这些提示会引发教师使用特定的问题解决策略,例如“逐步”或“解释你的答案”。在训练学生模型时,教师的提示被删除,这促使学生学会选择正确的策略。
基准测试结果
微软将Orca 2模型的性能与多个基线模型(包括Llama 2、ChatGPT和GPT-4)进行了比较。基准任务包括推理、语言理解、文本完成和摘要。在推理基准测试中,13B参数的Orca 2模型表现优于所有基线模型,除了ChatGPT和GPT-4。还发现,给Orca 2一个“谨慎”的系统提示(“你是一个谨慎的助手。你仔细遵循指示。”)相比空系统提示,能略微提升其性能。
用户反馈
一些用户在X平台上分享了他们对Orca 2的看法。一位用户指出,Orca 2不需要像“逐步解释”这样的提示技巧,它本身就具备这种能力。AI研究员Rudi Ranck称赞了Prompt Erasure技术的简洁性和高效性。
模型可用性
7B和13B参数的Orca 2模型已在Huggingface平台上提供。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。