探秘 AI 前沿：三项创新技术大揭秘 Marco-o1 Plan×RAG PPTX2MD

探秘AI前沿：三项创新技术大揭秘

📖阅读时长：15分钟

🕙发布时间：2025-02-04

近日热文：全网最全的神经网络数学原理（代码和公式）直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
 知乎LLM专栏
 知乎【柏企】
公众号【柏企科技说】【柏企阅文】

今天，我们一同深入探索AI领域三项引人入胜的创新技术，它们分别在大语言模型推理、复杂问题解决以及文件格式转换方面展现出独特魅力。

Marco-o1：助力大语言模型推理的智能登山法

开源代码

https://github.com/AIDC-AI/Marco-o1

生动解读

Marco-o1宛如一支专业的登山探险队，志在探寻登顶的最优路径（解决复杂问题）。探险队借助路线规划器（思维链，Chain of Thought，CoT），将宏大目标拆解为一个个易于掌控的小步骤，逐步推进。同时，借助无人机（蒙特卡洛树搜索，Monte Carlo Tree Search，MCTS）模拟并探索多条路线，依据置信度分数挑选出最佳路径。此外，团队依靠指南针（反思机制）来校准行进方向。

技术概述

OpenAI近期发布的o1模型，凭借卓越的推理能力声名远扬，引发众多模仿尝试。Marco-o1便是一种复刻方案，融合了思维链微调、蒙特卡洛树搜索以及反思机制等前沿技术，拓展模型的推理能力。

首先，利用思维链数据对Qwen2–7B-Instruct进行全参数微调，强化其处理复杂任务的能力。值得一提的是，Marco-o1的思维链数据集由蒙特卡洛树搜索生成。
Marco-o1的推理过程如下：
- 问题分解：运用思维链将复杂问题拆解为多个子问题。
- 推理路径探索：结合蒙特卡洛树搜索生成多条推理路径，每条路径对应不同解决方案。
- 反向传播：计算各路径步骤的置信度分数，以此确定整体路径奖励。
- 选择：依据置信度分数筛选出最优路径，探索更可能正确的解决方案。
- 答案生成：基于最优推理路径输出最终答案。
此外，Marco-o1还进行了两项优化：
- 引入小步长（32或64个词元），在搜索过程中考虑更精细的步骤，提升模型应对复杂推理任务的能力。
- 引入反思机制，在每次思考过程结束时添加 “等等！或许我犯了些错误！我需要重新思考。” 这一表述，使模型在解决难题时的准确率提高了50%。

技术点评

原本计划深入研究Marco-o1中蒙特卡洛树搜索的具体实现，但截至2024年1月21日，GitHub仓库尚未发布相关代码。另外，有两点值得关注：

反思机制的设计相对简单，主要通过模型重新生成推理路径实现。然而，重新生成的路径是否足够多样，能否有效规避先前错误，尚未在实验中得到充分验证。
奖励信号直接依赖置信度分数，这种单一信号可能导致奖励函数难以精准区分复杂路径的优劣。或许可以引入多维奖励信号，比如结合路径简洁性、任务完成准确率等进行综合评估。

Plan×RAG：步步为营、结果可溯的问题解决 “项目经理”

生动解读

Plan×RAG如同一位软件项目经理，借助逐步规划（有向无环图，Directed Acyclic Graph，DAG）将复杂问题拆解为简单子任务。它让 “团队成员”（专家模块）协同合作，并融入审计系统（单文档可追溯性）对每个任务结果加以验证。

技术概述

标准的检索增强生成（RAG）框架采用 “检索 - 推理” 模式，通过检索文档并进行推理来生成回复。但该方法在处理不相关文档、信息不足以及上下文窗口限制等问题时力不从心。此外，RAG难以准确追溯生成内容的文档来源，降低了可信度与可解释性，存在关键缺陷 —— 缺乏归因。

Plan×RAG摒弃传统的 “检索 - 推理” 模式，引入 “规划 - 检索” 框架，将复杂查询分解为有向无环图结构的子查询。这里的有向无环图概念与此前介绍的MindSearch类似。

与Self-RAG或RQ-RAG等需要模型微调的方案不同，Plan×RAG使用固定的大语言模型作为即插即用的专家模块，对小型企业而言成本效益更高。

Plan×RAG的工作流程包含5个步骤：接收输入查询、构建推理规划、处理子查询、合并子查询答案、返回最终答案。

技术点评

有向无环图的引入以及模块化专家的协作机制让人意识到，未来的大语言模型不应仅仅是语言生成工具，更应是可编排的系统。不过，在高负载场景下，有向无环图的实现面临效率挑战，或许可以采用轻量级有向无环图优化算法简化处理流程，或者运用动态有向无环图剪枝技术去除不必要路径。

PPTX2MD：PPTX一键转换Markdown格式的利器

开源代码

https://github.com/ssine/pptx2md

技术概述

最近发现一款能将PPT转换为Markdown格式的工具，其核心在于parse函数。该函数从PPTX幻灯片中提取各类元素，并转换为统一的Python数据结构，

具体代码如下：

def parse(config: ConversionConfig, prs: Presentation) -> ParsedPresentation:
    result = ParsedPresentation(slides=[])
    for idx, slide in enumerate(tqdm(prs.slides, desc='Converting slides')):
        if config.page is not None and idx + 1 != config.page:
            continue
        shapes = []
        try:
            shapes = sorted(ungroup_shapes(slide.shapes), key=attrgetter('top', 'left'))
        except:
            logger.warning('Bad shapes encountered in this slide. Please check or remove them and try again.')
            logger.warning('shapes:')
            try:
                for sp in slide.shapes:
                    logger.warning(sp.shape_type)
                    logger.warning(sp.top, sp.left, sp.width, sp.height)
            except:
                logger.warning('failed to print all bad shapes.')
        if not config.try_multi_column:
            result_slide = GeneralSlide(elements=process_shapes(config, shapes, idx + 1))
        else:
            multi_column_slide = get_multi_column_slide_if_present(
                prs, slide, partial(process_shapes, config=config, slide_id=idx + 1))
            if multi_column_slide:
                result_slide = multi_column_slide
            else:
                result_slide = GeneralSlide(elements=process_shapes(config, shapes, idx + 1))
        if not config.disable_notes and slide.has_notes_slide:
            text = slide.notes_slide.notes_text_frame.text
            if text:
                result_slide.notes.append(text)
        result.slides.append(result_slide)
    return result

它会遍历每张幻灯片，分解并排序其中的形状，再根据形状类型应用特定处理函数，以处理文本块、标题、图片和表格。该工具还能处理多列布局，并在需要时提取备注内容。处理完成后，将所有内容封装进ParsedPresentation对象再返回。

技术点评

将PPTX转换为Markdown格式，相比转换为PDF要简单许多，至少有清晰的实现思路。

探秘 AI 前沿：三项创新技术大揭秘 Marco-o1 Plan×RAG PPTX2MD