例如: Meta-Llama-3、ChatGPT、Google/gemma-2 都是 Text Generation 模型(文本生成),文本生成模型参数量较大,一般参数量在 8B 以上,因为文本生成相对来说是更加复杂的任务。而掩码语言模型(Fill-Mask) 和文本分类模型(Text Classification)则一般参数量较小,约为几百 M 。

除了最为常见的语言模型以外,还有视觉模型、语音模型等,以及目前很火的多模态模型,多模态模型是指,大模型可以同时处理多种类型的输入,比如可以同时向模型输入文本和图片。

模型训练
目前常见的大语言模型的训练大体分为两个阶段:预训练阶段(Pre-Training) 和 微调阶段(Fine-Tuning)

预训练阶段使用大规模的、通常没有人工标注的文本数据,这些数据可以是来自互联网、书籍、百科等公开的资源,大模型在这些数据上通过自监督学习的方式进行训练。

例如,预测掩码语言模型任务(MLM ⇒ Mask Language Model),即模型接收输入文本,其中一部分单词被替换成一个特殊的掩码标记,例如[MASK]。模型的任务是预测被掩码的单词,只依赖于掩码词汇的上下文。再例如下一个句子预测任务(NSP ⇒ Next Sentence Prediction),模型需要预测一个句子是否在另一个句子之后出现。这对于理解两个句子之间的关系(比如,它们是否连贯)非常有用,也有助于提高模型在诸如问答和自然语言推理任务上的表现。在这些任务中,模型通过最大化自身预测正确的概率来调整自身参数,Google 的 Bert 模型就是用这两种方式进行训练的。

预训练阶段类似于学生在学校里接受语言教学,学习词汇、语法、句子结构等基础知识,这个过程非常广泛和通用,不针对特定的目标或应用。更具体地说,对于大模型来说,预训练通常在大量的数据上进行,这些数据能够包含丰富且广泛的语言信息。例如,一个预训练的语言模型可能会在整个维基百科的文本上进行学习,意图理解语言的基础语法和模式。

微调阶段则类似于学生根据他的特定需求(比如出国旅游、进行商务谈判等)进一步学习和实践语言。这个阶段的学习更加具有针对性,目标是适应特定的任务或场景。对于深度学习模型来说,微调就是在预训练的基础上,使用特定任务的数据(比如情感分类、问题回答等)进行进一步的训练,使模型更好地适应这种特定任务。

微调阶段使用更加结构化的人工标注好的数据集来训练,这些数据集通常是特定领域的,通常包括(指令、问题、答案等)再通过将提示词模版结合。模型通过输入带有标签的训练数据来调整模型参数,使得模型能够更好地预测标签信息。


已注销
1 声望0 粉丝