2024-11-08,由腾讯 AI 西雅图实验室和圣母大学联合创建的 Leopard-Instruct,数据集主要解决多张富含文本的图像在理解和推理上的挑战,为多模态大型语言模型(MLLMs)的发展提供了新的方向和高质量的训练数据。
一、研究背景:
在现实世界的应用中,如演示文稿、扫描文档和网页快照等,文本丰富的图像无处不在。这些图像中的文本是理解整体内容的关键。然而,涉及多张文本丰富图像的任务尤其具有挑战性,因为它们不仅需要理解单张图像的内容,还需要在多张视觉输入之间进行关系推理和逻辑流程的推理。
目前遇到的困难和挑战:
1、高质量的多张文本丰富图像场景的指令调整数据集稀缺。
2、在文本丰富的多图像场景中,难以平衡图像分辨率与视觉特征序列长度的限制。
3、现有的多模态大型语言模型(MLLMs)主要集中在优化单张文本丰富图像任务的性能,限制了它们在涉及多张相互连接图像的许多现实场景中的应用能力。
数据集地址:Leopard-Instruct|多模态数据集|指令微调数据集
二、让我们一起来看一下Leopard-Instruct 数据集
Leopard-Instruct 是一个专为处理多张富含文本的图像而设计的多模态大型语言模型。
数据集包含约一百万条高质量的多模态指令调整数据,专门针对文本丰富、多图像场景进行定制。
数据集涵盖了三个关键领域:多页文档、多张图表和多张表格、网页轨迹,这些场景捕捉了现代数字信息的复杂性和多模态特性。
数据集构建:
这些数据通过多种方式收集而来,包括公共多页文档和幻灯片数据集、单页文档数据集的改编、以及从网站和报告中收集的原始幻灯片和图表。为了生成问题-答案对和推理步骤,研究者们使用了 GPT-4o,并在手动审查后发现准确率超过 90%。
数据集特点:
1、在于其专门针对文本丰富、多图像场景进行定制,涵盖了多页文档、多张图表和多张表格、网页轨迹等场景。
2、数据集包括了多张图像的样本,每张图像都配有相应的任务指令和响应。
3、数据集还包括了链式思考(CoT)推理,以帮助模型在多图像场景中进行跨图像推理。
数据集使用方法:
Leopard-Instruct 数据集通过自适应高分辨率多图像编码模块进行处理,该模块能够根据输入图像的原始宽高比和分辨率动态优化视觉序列长度的分配。
基准测试:
在一系列广泛的基准测试中,Leopard 模型在文本丰富的多图像评估中表现出色,并在一般领域评估中保持了竞争力。
左:文本丰富的多图像任务的演示。模型需要对多个图像中的文本内容进行推理才能正确回答问题。Leopard 在基线失败时成功生成了正确的答案。右:Leopard 的评估结果和 3 个基线。我们的模型在文本丰富的多图像基准测试中大大超过了其对应模型,在单一和一般评估中保持了可比的性能。
整体模型管道。
整体模型管道:
1、 原始图像输入
2、 我们首先根据图像的分辨率和纵横比计算所有图像的子图像编号的最佳分配和分割策略。
3、对图片进行填充、调整大小和拆分操作。
4、 然后将子图像和调整大小的原始图像编码为一系列视觉特征。这些序列随后会进行像素随机运算,该运算每 4 个特征连接一次。
5、 视觉特征通过视觉-语言连接器投射到语言嵌入空间中。最后,大型语言模型然后集成这些视觉和语言嵌入以生成响应。
Leopard-Instruct 数据集的数据统计。
三、让我们看一下Leopard-Instruct 数据集应用场景
比如我们想要理解一份多页的文档,比如一份合同或者报告,我们通常需要一页一页地仔细阅读。我们可能需要在不同的页面之间来回翻看,以获取完整的信息和理解整个文档的逻辑流程。这个过程不仅耗时耗力,而且很容易遗漏一些重要的细节。
而现在,有了 Leopard 数据集训练的系统之后。
我们同样需要理解一份多页的合同文档。我们可以将整个文档的 PDF 文件上传到 智能系统中。智能系统会自动将每一页的文本和图像信息提取出来,并进行整合和分析。
具体来说,智能系统 会首先识别出文档中的文本内容,包括标题、段落、列表、表格等,并将它们与相应的页面图像关联起来。然后,智能系统会分析文档的结构和布局,识别出不同页面之间的逻辑关系,比如哪些页面是连续的,哪些部分是相互关联的。
接下来,智能系统会利用其强大的多模态理解和推理能力,对整个文档进行深入的分析。它可以识别出文档中的关键信息,比如合同条款、日期、金额等,并将它们汇总和整理成一个结构化的摘要。同时,智能系统 还可以回答我们关于文档内容的各种问题,比如某个条款的具体内容是什么,文档中提到了哪些关键人物或实体等。
更重要的是,智能系统 可以跨页面进行推理和分析。例如,如果我们想知道某个条款在文档中的前后文,智能系统 可以自动找到相关的信息,并将它们串联起来,帮助我们更好地理解整个文档的逻辑流程。
最后,智能系统 还可以生成一个直观的文档摘要或可视化,展示文档的关键信息和结构。这样,我们就可以快速地把握文档的核心内容,而不需要一页一页地翻看。
目前kimi就挺好用的。可以处理大量的文本,最多20万字的输入和输出,无论是长篇文章、报告还是多个文件的内容,kimi都能够快速阅读并提供有用的反馈。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。