AUTOPRESENT：用于幻灯片生成的 LLM 模型，其结果与 GPT-4o 相当

论文链接：https://www.arxiv.org/abs/2501.00912
代码链接：https://github.com/para-lost/AutoPresent

📖阅读时长：25分钟

🕙发布时间：2025-02-09

近日热文：全网最全的神经网络数学原理（代码和公式）直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
 知乎LLM专栏
 知乎【柏企】
公众号【柏企科技说】【柏企阅文】

设计结构化的视觉效果，比如演示幻灯片，对沟通交流至关重要，这既需要内容创作能力，也离不开视觉规划技巧。在本文中，作者们致力于攻克自动幻灯片生成这一难题，让模型能够依据自然语言（NL）指令制作幻灯片演示文稿。

本文首次推出了SLIDESBENCH基准测试，这是幻灯片生成领域的首个基准测试，包含7000个训练示例和585个测试示例，这些示例源自10个不同领域的310个幻灯片。此外，还介绍了AUTOPRESENT，这是一个基于80亿参数LLAMA的模型，在7000对指令以及幻灯片生成代码上进行训练，取得了与闭源模型GPT-4o相媲美的成果。简而言之，用户向系统输入关于目标幻灯片的自然语言指令，系统就能生成可编辑的演示文稿，如下图所示。

主要贡献

构建任务与基准测试：明确了从自然语言到幻灯片生成的任务，并搭建了SLIDESBENCH基准测试平台。它包含7000个训练示例和585个测试示例，还支持自动评估。
创新方法与模型评测：运用并改进从自然语言到程序生成的方法，制作出高质量幻灯片，同时对扩散模型、视觉语言模型（VLM）和大语言模型（LLM）进行基准测试。
训练模型与工具开发：训练了一个80亿参数的开源大语言模型AUTOPRESENT，其性能接近GPT-4o。还设计了编程工具库SLIDESLIB，方便跨模型生成幻灯片程序。

幻灯片工作台

幻灯片数据收集

从网络上搜索并收集了涵盖艺术、营销、环境、技术等10个领域的演示文稿幻灯片。从每个领域挑选出质量最高的幻灯片，人工筛选并初步处理，检查幻灯片是否具备视觉结构化布局，以及是否包含可提取的媒体（如图片）。满足条件的幻灯片，一个被纳入测试集，其余放入训练集。最终，测试集和训练集分别有10个和300个PPTX格式的幻灯片组，每个组平均包含20张幻灯片。

三种任务设置

根据参考幻灯片，精心编制了三个版本的自然语言指令，代表不同难度级别的幻灯片生成任务，每种设置具体如下：

图片详细说明：为模型提供生成参考幻灯片所需的全部信息和资源，包括文本、图像内容、格式和布局规范，以此评估模型的视觉规划能力，如空间布局安排、格式一致性保持、内容比例平衡以及关键元素突出等。
仅详细说明：用户给出与“图片详细说明”设置中相同的自然语言指令，但用GPT-4o-mini生成的自然语言描述（例如“两个人握手”）替代原有的图片，然后让模型使用图像搜索或生成工具获取图片。
高级说明：设计一种高级指令设置，自然语言指令较为笼统，仅给出幻灯片的大致主题，比如“为Airbnb创建标题幻灯片”，不涉及具体要添加的徽标、文本及其位置等细节。

示例注释

图片详细说明：采用人工编写示例与模型生成注释相结合的可扩展方式。对每个幻灯片组，先手动为三张示例幻灯片编写指令，涵盖重现幻灯片所需的所有信息，并提供图片路径。之后，将这些人工编写的指令与参考幻灯片组成的对，作为少样本示例，促使大语言模型（如gpt-4o-mini）为当前幻灯片组中的每张幻灯片生成自然语言指令。
仅详细说明：把图片路径（如media/image 0.png）替换为图片的自然语言描述（如“艺术、多彩的背景”）。
高级说明：同样先手动注释三个示例，再让模型为所有幻灯片生成指令。人工编写的指令仅描述幻灯片主题，故意不提及具体内容和布局细节。

评估指标

基于参考的指标

从四个维度评估模型生成的幻灯片与参考幻灯片的相似度：

元素匹配：精确解析生成幻灯片和参考幻灯片中的每个元素，利用Match库计算它们的最大匹配度。
内容相似度：若参考元素是文本，使用默认的all-MiniLM-L6-v2模型的sentence-transformer生成的嵌入的余弦相似度来计算文本相似度；若参考元素是图像，则计算两个元素中图像的CLIP分数。最后报告所有匹配元素对的平均内容相似度（只要任一元素包含非空文本字符串或图像组件）。
颜色相似度：运用CIEDE2000色差公式测量颜色相似度，量化颜色之间的感知差异。针对每对匹配元素，测量文本字体颜色相似度和元素背景颜色（若有）。
位置相似性：将元素坐标按幻灯片页面长宽标准化到[0, 1]，计算元素之间的曼哈顿距离，并将位置相似性表示为sim(r, g) = 1−max(abs(xr −xg, yr −yg))。

无参考指标

主要涵盖以下三点：

文本：简洁的文本对幻灯片吸引观众至关重要。理想的幻灯片应有清晰的标题、简洁的主要内容和易读的格式。同时，评估模型能否找到高质量图片并合理运用以提升幻灯片质量。
布局：幻灯片布局对实现视觉平衡很关键。检查所有元素是否都在幻灯片内、无重叠，且与相关元素正确对齐。
颜色：幻灯片中生动且一致的颜色运用有助于传达信息。查看幻灯片是否使用高对比度颜色提高可见性，避免使用高亮颜色影响用户体验。

可执行性

统计模型生成的程序在所有示例中成功执行的百分比。仅对可执行幻灯片报告基于参考的分数和无参考分数，以公平比较设计质量；对所有幻灯片报告“总体”分数，未执行的幻灯片计0分以体现执行失败情况。

方法

通过自然语言到代码生成幻灯片

生成Python程序：模型依据自然语言指令，使用如python-pptx这样的公开库生成Python程序。模型先接收两对（自然语言指令，Python程序）作为上下文示例，接着接收测试指令并生成Python程序，执行该程序理论上会生成包含所需幻灯片的PPTX文件。但生成的程序通常又长又复杂（平均170行），模型要完全正确生成颇具挑战。
使用SLIDESLIB生成程序：设计了SLIDESLIB库，它为设置标题、背景颜色等常见操作提供更易用的接口。借助SLIDESLIB，平均程序长度缩短至13行，大大降低了生成难度。SLIDESLIB包含4个基本操作函数和3个图像搜索与生成函数，能让模型生成更简洁、模块化的程序。为使模型使用SLIDESLIB生成程序，采用可视化编程方法，提供包含函数文档和两个上下文示例的提示。

AUTOPRESENT

利用SLIDESBENCH训练集中的幻灯片，构建（自然语言指令，程序）对作为训练数据，训练开源的80亿参数模型AUTOPRESENT。该模型基于LLAMA-3.1–8BInstruct，使用秩为128的LoRA进行训练。

训练数据构建：手动设计提取脚本，提取幻灯片元素并生成基于规则的程序；同时，将上述程序代码段转换为SLIDESLIB函数调用，生成规范程序。对于仅详细说明和高级说明设置中的图像，生成简短标题并借助GPT-4o生成图像相关程序。
训练集组成：为每个示例获取3个指令和2个程序版本后，构建4个版本的训练数据，每个版本包含7000个示例：（附图、python程序的详细说明）；（附图详细说明，SLIDESLIB程序）；（仅详细说明，SLIDESLIB程序）；（高级说明，SLIDESLIB程序）。

迭代细化

为让模型像人一样优化幻灯片，探索了迭代优化流程。以使用SLIDESLIB的设置为例，将原始语言指令、模型首次生成的程序以及渲染幻灯片的快照提供给GPT-4o（能处理幻灯片图像），然后让模型基于这些信息生成新程序，从颜色、间距等方面优化幻灯片质量。

实验

实验设置

代码生成方法：从模型生成的结果中采样n = 3个响应并依次检查，将第一个成功执行的程序作为模型最终输出。若3个响应都执行失败，则记为执行失败。除了AUTOPRESENT，还直接测试了多个大语言模型，包括80亿参数的开源LLAMA 3.1（Instruct）、视觉语言模型LLAVA v1.5（基于Vicuna-7B-v1.5大语言模型）以及专有模型GPT-4O（gpt-4o-2024–08–06检查点）。
端到端图像生成：测试Stable-Diffusion 2和DALL-E 3，让它们根据自然语言指令输出幻灯片。使用Tesseract OCR将幻灯片图像分割成元素并解析出文本，再应用默认计算流程调整基于参考的评估过程。

结果与分析

结果显示，像LLAVA（70亿参数）和LLAMA（80亿参数）这样的小模型几乎无法生成幻灯片，而AUTOPRESENT（80亿参数）生成的幻灯片与GPT-4o相当，但所有模型仍不如人类表现。在仅详细说明和高级说明的设置下，虽然在附图详细说明设置中模型间差距可达49.9 - 55.0分，但在无先验视觉信息的情况下，差距缩小到22.2 - 34.6分。与未经优化的开源模型相比，AUTOPRESENT的性能更接近GPT-4O。

端到端图像生成：在无视觉信息时，端到端图像生成方法在基于参考和无参考指标上的表现都不如最佳代码生成方法，尤其是在生成准确内容方面。

库的作用：SLIDESLIB在三种场景下都为LLAMA和LLAVA带来显著提升，最多可达34.0分；同样也提高了GPT-4O在不同场景下的性能，特别是在没有提供图像的情况下。
VLM与LLM对比：在没有辅助函数时，测试的VLM（LLAVA）在所有场景下比LLM（LLAMA）得分高5.1 - 7.5分。但LLAVA在使用上下文提供的函数方面能力有限，库增强后的LLAMA比LLAVA领先12.1 - 26.2分。随着指令详细程度降低（从附图详细说明到仅详细说明再到高级说明），所有LLM（LLAMA、GPT-4O）的表现都会变差，而SLIDESLIB能有效缓解这种因输入特异性降低导致的性能下降，助力模型在三种场景下都取得更好成果。

感知评估

通过配对t检验发现，不同模型在用户偏好方面存在差异。在两种设置下，AUTOPRESENT和GPT-4o在统计上都比LLAMA表现更好。在附图详细说明设置中，GPT-4o和AUTOPRESENT无显著差异；在仅详细说明设置中，AUTOPRESENT略逊于GPT-4o，这与定量评估结果相符。

迭代细化后的结果

结果表明，迭代细化在三种场景下都提升了模型性能，尤其是在仅详细说明任务中。

局限性

目前研究主要集中于单张幻灯片生成，且一次性生成完整幻灯片代码，未利用迭代设计工作流程。融入更多设计原则，如优化注意力吸引和信息清晰度，对提升生成幻灯片的影响力和有效性至关重要。

结论

本文成功应对了从零创建结构化视觉效果的挑战，推出了SLIDESBENCH这一首个自动幻灯片生成基准测试，并给出了基于参考和无参考幻灯片的评估指标。对多种端到端图像和程序生成方法进行基准测试后发现，结合SLIDESLIB的AUTOPRESENT模型与顶尖的GPT-4O模型性能相当。

近日热文：全网最全的神经网络数学原理（代码和公式）直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
 知乎LLM专栏
 知乎【柏企】
公众号【柏企科技说】【柏企阅文】

本文由mdnice多平台发布

AUTOPRESENT：用于幻灯片生成的 LLM 模型，其结果与 GPT-4o 相当