探秘AI前沿:三项创新技术大揭秘

📖阅读时长:15分钟

🕙发布时间:2025-02-04

近日热文:全网最全的神经网络数学原理(代码和公式)直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
知乎LLM专栏
知乎【柏企
公众号【柏企科技说】【柏企阅文

今天,我们一同深入探索AI领域三项引人入胜的创新技术,它们分别在大语言模型推理、复杂问题解决以及文件格式转换方面展现出独特魅力。

Marco-o1:助力大语言模型推理的智能登山法

开源代码

https://github.com/AIDC-AI/Marco-o1

生动解读

Marco-o1宛如一支专业的登山探险队,志在探寻登顶的最优路径(解决复杂问题) 。探险队借助路线规划器(思维链,Chain of Thought,CoT),将宏大目标拆解为一个个易于掌控的小步骤,逐步推进。同时,借助无人机(蒙特卡洛树搜索,Monte Carlo Tree Search,MCTS)模拟并探索多条路线,依据置信度分数挑选出最佳路径。此外,团队依靠指南针(反思机制)来校准行进方向。

技术概述

OpenAI近期发布的o1模型,凭借卓越的推理能力声名远扬,引发众多模仿尝试。Marco-o1便是一种复刻方案,融合了思维链微调、蒙特卡洛树搜索以及反思机制等前沿技术,拓展模型的推理能力。

  1. 首先,利用思维链数据对Qwen2–7B-Instruct进行全参数微调,强化其处理复杂任务的能力。值得一提的是,Marco-o1的思维链数据集由蒙特卡洛树搜索生成。
  2. Marco-o1的推理过程如下:

    • 问题分解:运用思维链将复杂问题拆解为多个子问题。
    • 推理路径探索:结合蒙特卡洛树搜索生成多条推理路径,每条路径对应不同解决方案。
    • 反向传播:计算各路径步骤的置信度分数,以此确定整体路径奖励。
    • 选择:依据置信度分数筛选出最优路径,探索更可能正确的解决方案。
    • 答案生成:基于最优推理路径输出最终答案。
  3. 此外,Marco-o1还进行了两项优化:

    • 引入小步长(32或64个词元),在搜索过程中考虑更精细的步骤,提升模型应对复杂推理任务的能力。
    • 引入反思机制,在每次思考过程结束时添加 “等等!或许我犯了些错误!我需要重新思考。” 这一表述,使模型在解决难题时的准确率提高了50%。

技术点评

原本计划深入研究Marco-o1中蒙特卡洛树搜索的具体实现,但截至2024年1月21日,GitHub仓库尚未发布相关代码。另外,有两点值得关注:

  1. 反思机制的设计相对简单,主要通过模型重新生成推理路径实现。然而,重新生成的路径是否足够多样,能否有效规避先前错误,尚未在实验中得到充分验证。
  2. 奖励信号直接依赖置信度分数,这种单一信号可能导致奖励函数难以精准区分复杂路径的优劣。或许可以引入多维奖励信号,比如结合路径简洁性、任务完成准确率等进行综合评估。

Plan×RAG:步步为营、结果可溯的问题解决 “项目经理”

生动解读

Plan×RAG如同一位软件项目经理,借助逐步规划(有向无环图,Directed Acyclic Graph,DAG)将复杂问题拆解为简单子任务。它让 “团队成员”(专家模块)协同合作,并融入审计系统(单文档可追溯性)对每个任务结果加以验证。

技术概述

标准的检索增强生成(RAG)框架采用 “检索 - 推理” 模式,通过检索文档并进行推理来生成回复。但该方法在处理不相关文档、信息不足以及上下文窗口限制等问题时力不从心。此外,RAG难以准确追溯生成内容的文档来源,降低了可信度与可解释性,存在关键缺陷 —— 缺乏归因。

Plan×RAG摒弃传统的 “检索 - 推理” 模式,引入 “规划 - 检索” 框架,将复杂查询分解为有向无环图结构的子查询。这里的有向无环图概念与此前介绍的MindSearch类似。

与Self-RAG或RQ-RAG等需要模型微调的方案不同,Plan×RAG使用固定的大语言模型作为即插即用的专家模块,对小型企业而言成本效益更高。

Plan×RAG的工作流程包含5个步骤:接收输入查询、构建推理规划、处理子查询、合并子查询答案、返回最终答案。

技术点评

有向无环图的引入以及模块化专家的协作机制让人意识到,未来的大语言模型不应仅仅是语言生成工具,更应是可编排的系统。不过,在高负载场景下,有向无环图的实现面临效率挑战,或许可以采用轻量级有向无环图优化算法简化处理流程,或者运用动态有向无环图剪枝技术去除不必要路径。

PPTX2MD:PPTX一键转换Markdown格式的利器

开源代码

https://github.com/ssine/pptx2md

技术概述

最近发现一款能将PPT转换为Markdown格式的工具,其核心在于parse函数。该函数从PPTX幻灯片中提取各类元素,并转换为统一的Python数据结构,


具体代码如下:

def parse(config: ConversionConfig, prs: Presentation) -> ParsedPresentation:
    result = ParsedPresentation(slides=[])
    for idx, slide in enumerate(tqdm(prs.slides, desc='Converting slides')):
        if config.page is not None and idx + 1 != config.page:
            continue
        shapes = []
        try:
            shapes = sorted(ungroup_shapes(slide.shapes), key=attrgetter('top', 'left'))
        except:
            logger.warning('Bad shapes encountered in this slide. Please check or remove them and try again.')
            logger.warning('shapes:')
            try:
                for sp in slide.shapes:
                    logger.warning(sp.shape_type)
                    logger.warning(sp.top, sp.left, sp.width, sp.height)
            except:
                logger.warning('failed to print all bad shapes.')
        if not config.try_multi_column:
            result_slide = GeneralSlide(elements=process_shapes(config, shapes, idx + 1))
        else:
            multi_column_slide = get_multi_column_slide_if_present(
                prs, slide, partial(process_shapes, config=config, slide_id=idx + 1))
            if multi_column_slide:
                result_slide = multi_column_slide
            else:
                result_slide = GeneralSlide(elements=process_shapes(config, shapes, idx + 1))
        if not config.disable_notes and slide.has_notes_slide:
            text = slide.notes_slide.notes_text_frame.text
            if text:
                result_slide.notes.append(text)
        result.slides.append(result_slide)
    return result

它会遍历每张幻灯片,分解并排序其中的形状,再根据形状类型应用特定处理函数,以处理文本块、标题、图片和表格。该工具还能处理多列布局,并在需要时提取备注内容。处理完成后,将所有内容封装进ParsedPresentation对象再返回。

技术点评

将PPTX转换为Markdown格式,相比转换为PDF要简单许多,至少有清晰的实现思路。

推荐阅读

1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
1 声望0 粉丝

时间差不多了,快上车!~