ReaderLM v2:前沿小型语言模型,实现HTML到Markdown和JSON的转换
📖14分钟阅读
🕙2025年02月03日
ReaderLM的第二代是一款拥有15亿参数的语言模型,它能将原始HTML转换为格式精美的Markdown或JSON,准确率极高,并且在处理更长文本上下文方面表现更佳。ReaderLM-v2的输入和输出总长度支持高达512K个标记。该模型提供29种语言的多语言支持,包括英语、中文、日语、韩语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、越南语、泰语、阿拉伯语等等。
第一代模型将HTML到Markdown的转换视为“选择性复制”任务,而v2则将其当作真正的翻译过程。这一转变使模型能够熟练运用Markdown语法,擅长生成代码块、嵌套列表、表格和LaTeX公式等复杂元素。
该模型已在HuggingFace平台上线。
训练过程
ReaderLM-v2基于Qwen2.5–1.5B-Instruction构建,这是一个紧凑的基础模型,在指令遵循和长文本上下文处理任务方面效率颇高。
ReaderLM-v2的成功在很大程度上依赖于其训练数据的质量。一个名为html-markdown-1m的数据集应运而生,其中包含从互联网上收集的100万个HTML文档。平均而言,每个文档包含5.6万个标记,反映了现实网络数据的长度和复杂性。为了准备这个数据集,HTML文件在保留关键结构和语义元素的同时,去除了JavaScript和CSS等不必要元素。清洗后,使用Jina Reader通过正则表达式模式和启发式方法将HTML文件转换为Markdown。
虽然这创建了一个可用的基线数据集,但也凸显了一个关键限制:仅在这些直接转换数据上训练的模型,本质上只是学习模仿Jina Reader使用的正则表达式模式和启发式方法。reader-lm-0.5b/1.5b就是明显的例子,其性能上限受到这些基于规则转换的质量制约。
为了解决这些限制,开发了一个三步流程,该流程依赖于Qwen2.5–32B-Instruction模型,这对于创建高质量的合成数据集至关重要。
- 起草:根据提供给模型的指令生成初始的Markdown和JSON输出。这些输出虽然多样,但往往存在噪声或不一致的问题。
- 优化:通过去除冗余内容、强化结构一致性并使其符合所需格式,对生成的草稿进行改进。这一步确保数据干净整洁,并符合任务要求。
- 评估:根据原始指令对优化后的输出进行评估。只有通过评估的数据才会被纳入最终数据集。这种迭代方法确保训练数据达到结构化数据提取所需的质量标准。
训练过程包含多个阶段,以应对处理长文本上下文文档的挑战。首先是长文本上下文预训练,使用html-markdown-1m数据集。采用环形锯齿注意力(ring-zag attention )和旋转位置编码(RoPE)等技术,逐步将模型的上下文长度从32768个标记扩展到256000个标记。为了保持稳定性和效率,采用渐进式训练方法,从较短序列开始,逐步增加上下文长度。
预训练之后,进行监督微调(SFT)。这个阶段使用数据准备过程中生成的优化数据集。这些数据集包含Markdown和JSON提取任务的详细指令,以及优化草稿的示例。每个数据集都经过精心设计,帮助模型学习特定任务,例如识别主要内容或遵循基于模式的JSON结构。
然后应用直接偏好优化(DPO),使模型的输出与高质量结果保持一致。在这个阶段,模型在草稿和优化后的响应配对数据上进行训练。通过学习优先选择优化后的输出,模型内化了定义优质且特定任务结果的细微差别。
最后,实施自博弈强化调整,这是一个迭代过程,模型在其中生成、优化并评估自己的输出。这个循环使模型能够在无需额外外部监督的情况下持续改进。通过利用自身的评估和优化,模型逐渐提高生成准确结构化输出的能力。
第一个版本中的一个主要问题是退化现象,特别是在生成长序列后出现重复和循环。模型要么开始重复相同的标记,要么陷入循环,在一短串标记中循环,直到达到最大输出长度。ReaderLM-v2通过在训练过程中添加对比损失,极大地缓解了这个问题——无论上下文长度或已生成的标记数量如何,其性能都保持稳定。
评估情况
模型在三项任务上进行评估:
- 主要内容的HTML到Markdown转换
- 带指令的HTML到Markdown转换
- 基于模式的HTML到JSON转换
评估性能时综合使用评估内容准确性和结构保真度的指标。
- 对于HTML到Markdown转换,指标包括ROUGE-L、词错误率(WER)、替换率(SUB)、插入率(INS)、莱文斯坦距离(Levenshtein Distance)、达默劳-莱文斯坦距离(Damerau-Levenshtein Distance)和贾罗-温克勒相似度(Jaro-Winkler Similarity)。
- 对于HTML到JSON转换,使用F1值、精确率、召回率和通过率。
主要内容HTML到Markdown转换
ReaderLM-v2-pro在七项指标中的五项上取得了最佳成绩,与其他模型(包括参数更多的模型)相比,在内容保留和结构准确性方面有显著提升。ReaderLM-v2在部分指标上也优于其他模型。
带指令的HTML到Markdown转换
ReaderLM-v2和ReaderLM-v2-pro在ROUGE-L、替换率、莱文斯坦距离和贾罗-温克勒相似度方面领先。虽然GPT-4o在词错误率和达默劳距离上表现更好,但ReaderLM-v2-pro在整体内容结构和准确性方面保持得更好。
基于模式的HTML到JSON转换
ReaderLM-v2和ReaderLM-v2-pro表现出色,F1得分与更大的模型差距很小,并且保持了较高的通过率。
总体而言,ReaderLM-v2在所有评估任务中都展现出显著的进步,在内容准确性和结构保真度之间实现了良好的平衡。专业版(pro version)进一步提升了性能,尤其是在HTML到Markdown的转换任务中。
论文
ReaderLM v2: Frontier Small Language Model for HTML to Markdown and JSON
https://jina.ai/news/readerlm-v2-frontier-small-language-mode...
推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
近日热文:全网最全的神经网络数学原理(代码和公式)直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
知乎LLM专栏
知乎【柏企】
公众号【柏企科技说】【柏企阅文】
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。