Google Research 发布多模态 AI 模型 ScreenAI
Google Research 最近开发了名为 ScreenAI 的多模态 AI 模型,专门用于理解信息图表和用户界面。该模型基于 PaLI 架构,并在多项任务中实现了最先进的性能。
模型架构与训练
ScreenAI 基于 Pathways Language and Image (PaLI) 架构,结合了视觉 Transformer (ViT) 和编码器-解码器大语言模型 (LLM),如 T5。Google 团队对该架构进行了关键修改,以处理用户界面和信息图表中常见的多种分辨率和宽高比。他们采用了 Pix2Struct 模型的图像分块策略,使模型能够根据输入图像的形状调整分块网格。
数据生成与预处理
为了生成预训练数据,研究人员首先创建了一个自动标注管道。该系统能够检测和分类用户界面和信息图表中的元素,如图像、图标、文本和按钮,生成包含 UI 元素及其位置的 屏幕模式 标注。这些标注数据随后被输入到 LLM 中,生成用户可能提出的问题以及屏幕摘要。最终的训练数据集包含约 4 亿个样本。
性能评估
ScreenAI 在多个公开数据集上进行了微调和评估,包括导航、摘要和问答任务。它在 WebSRC 和 MoTIF 基准测试上创下了新的性能记录,并在 Chart QA、DocVQA 和 InfographicVQA 基准测试上优于其他参数规模相似的模型。此外,它在另外两个基准测试上表现“具有竞争力”。
数据发布
为了帮助研究社区开发和评估类似模型,Google 发布了三个新的评估数据集,用于基于屏幕的问答模型。这些数据集包括 ScreenQA 和 Screen Annotation,并已在 GitHub 上开源。
用户反馈与未来展望
一些用户对 ScreenAI 的潜在应用表达了兴趣,例如是否可用于搜索引擎结果排名。尽管 Google 尚未发布模型代码或权重,但其发布的数据集为未来的研究提供了重要资源。
总体而言,ScreenAI 展示了在用户界面和信息图表理解方面的强大能力,但仍需进一步研究以缩小与更大规模模型(如 GPT-4 和 Gemini)之间的差距。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。