头图

2025-04-01,由IBM创建的ACPBench Hard数据集,通过开放性生成任务,将规划过程中的推理能力挑战推向极致,为评估和提升模型在行动、变化和规划方面的推理能力提供了全新视角,也为未来规划领域模型的发展指明了方向。

一、研究背景

推理和规划是人工智能的基石。随着大型语言模型的出现,研究重点转向测试这些模型在推理和规划领域的能力。目前的推理研究多集中在数学推理和逻辑推理,规划研究则多关注计划生成或验证能力。然而,这种端到端的规划研究无法精准定位黑箱规划器(如基于LLM的规划器)无法产生解决方案的原因。为弥补这一缺口,ACPBench数据集应运而生,将规划过程拆分为原子推理任务,以测试模型在行动、变化和规划方面的推理能力。

目前遇到困难和挑战:

1、任务形式局限:ACPBench数据集的布尔或多项选择题形式,虽然简单,但与实际规划中生成式任务不符,且包含额外信息,使模型难以直接应用于规划。

2、模型性能不足:即使是目前最先进的大型语言模型,在推理任务上的表现仍不理想,大多数任务的准确率低于65%,无法可靠地用于规划任务。

3、任务复杂性高:部分推理任务如行动可达性、原子可达性等,计算复杂度高,验证答案正确性也面临挑战,限制了模型在这些任务上的表现和应用。

数据集地址:ACPBench Hard|人工智能推理数据集|自动规划数据集

二、让我们一起看一下ACPBench Hard

ACPBench Hard是ACPBench的扩展版本,包含开放性生成任务,用于测试模型在行动、变化和规划方面的推理能力。

ACPBench Hard基于ACPBench构建,保留了原有的13个规划领域和7个任务,并新增了一个挑战性任务——寻找使我们更接近目标的行动。这些任务包括行动适用性(App)、进展(Prog)、可达性(Reach)、行动可达性(AReach)、验证(Val)、理由(Just)和里程碑(Land),以及新增的下一步行动(NextA)任务。每个任务都设计了相应的评估器,用于评分模型生成的答案。

数据集特点:

1、开放性生成任务:与ACPBench的布尔或多项选择题不同,ACPBench Hard采用开放性生成任务,更贴近实际规划需求。

2、任务多样性:涵盖从行动适用性到寻找最优行动的多种推理任务,全面评估模型推理能力。

3、高难度挑战:即使是大型语言模型,在多数任务上表现仍不理想,凸显了数据集的高难度。

4、验证算法完备:为每个任务设计了验证算法,确保答案评估的准确性和可靠性。

基准测试:

基准测试涵盖了多种大小的语言模型,包括小型、中型和大型模型。测试结果显示,即使是性能最好的模型,在多数任务上的准确率也低于60%,表明ACPBench Hard对模型推理能力提出了极高要求。例如,在行动可达性任务中,多数模型的准确率接近0%,而在进展任务中,部分模型能达到80%以上准确率。这表明不同任务的难度差异较大,模型在某些任务上仍有较大提升空间。

图片

                大型语言模型的任务准确性。

图片

            中小型语言模型性能,最佳结果以粗体显示。

图片
ACPBench Hard 中进度任务的问题示例。该问题由上下文组成,其中包含域和问题描述,以及当前状态描述和输入,即实际问题。
图片

                    用于解析模型响应的语法。

图片
大尺寸语言和推理模型的准确性。粗体条目表示最佳整体模型,而带下划线的条目表示最佳语言模型。
图片
大型模型在下一个作任务上的准确性,按域划分。粗体条目表示最佳整体模型,而带下划线的条目表示最佳语言模型。
图片

                    GPT-4o 的域准确性。

图片

            GPT-4o 在不同问题格式上的预测误差比较。

三、展望ACPBench Hard应用场景

比如,某物流公司负责多个城市的货物配送,拥有多个仓库和配送中心,每个仓库和配送中心之间有不同的运输成本和时间。公司需要为客户提供快速、准时、低成本的商品配送服务,同时要满足客户在规定时间窗口内接收商品的要求。以前,公司主要依靠人工经验来规划运输路线和安排任务,这种方式效率低下且容易出错,导致运输成本高、客户满意度低。

以前的工作方式:
1、人工规划路线:工作人员根据经验选择运输工具和规划路线,无法实时考虑交通拥堵、天气异常等因素,导致配送时间长、成本高。

3、任务分配不精准:无法精准预测各区域的货物需求量,导致部分区域货物积压,而另一些区域则缺货。

3、缺乏动态调整:在面对突发情况(如订单变动、车辆故障)时,难以快速调整运输计划,影响配送效率。

现在的改变:
引入ACPBench Hard数据集后,公司利用其开放性生成任务的特点,训练了更智能的AI模型,实现了以下改变:

1、智能路径规划:AI模型可以实时整合交通拥堵、天气异常、订单变动等数据,为车辆/骑手规划最优路线。例如,某即时配送平台接入后,骑手单均配送时长从38分钟降至26分钟,日单量提升30%。

2、精准需求预测与库存管理:基于历史销售、促销计划、社交媒体舆情等数据,AI模型能够预测区域商品需求量,并生成智能补货建议。某快消品牌区域仓部署后,库存周转率提升40%,缺货率从12%降至3%。

3、动态任务调整:AI模型能够实时适应不断变化的配送需求,动态调整任务分配和运输计划。在面对突发情况时,能够快速重新规划路线和调整任务,确保配送的高效性和稳定性。

通过引入ACPBench Hard数据集,该公司不仅提高了物流效率、降低了成本,还提升了客户满意度,增强了市场竞争力。

更多开源的数据集,请打开:遇见数据集

https://www.selectdataset.com/


数据猎手小k
1 声望0 粉丝

为你解读每一个数据集背后的故事。