基于视觉语言模型的有监督微调(SFT):从预训练检查点到调优模型

主要观点:Vision-Language Models(VLMs)如[LLaMA]在理解和生成基于视觉内容的文本方面越来越强大,在多种任务中表现出色,但特定领域或任务应用常需额外调优,监督微调(SFT)可提高其性能,而收集手动的图像-问题-答案(QA)对耗时且昂贵,可通过合成数据生成来解决,即利用大型VLM生成QA对,用较小VLM评估过滤,还可加入人工验证以保证质量。
关键信息

  • 有生成QA对的大型VLM(如[meta-llama/Llama-3.2-90B-Vision-Instruct])和评估过滤的VLM(如[Qwen/Qwen2.5-VL-7B-Instruct])。
  • 生成QA对的函数generate_qa及评估函数judge_qwen的代码实现。
  • 解析QA的parse_qa函数及收集接受数据的过程。
    重要细节
  • 强调模型多样性,生成和评估使用不同模型家族可减少偏差,如生成用90B参数的VLM,评估用7B参数的VLM。
  • 提示调优很关键,在generate_qajudge_qwen中,不同的提示引导模型输出不同质量的结果,小的措辞变化会影响一致性。
  • 最后通过教师-法官-学生范式,用自动生成的合成数据集微调较小模型,实现可扩展的模型定制,用于特殊领域。
阅读 78
0 条评论