ReaderLM v2：前沿小型语言模型，实现HTML到Markdown和JSON的转换

📖14分钟阅读

🕙2025年02月03日

ReaderLM的第二代是一款拥有15亿参数的语言模型，它能将原始HTML转换为格式精美的Markdown或JSON，准确率极高，并且在处理更长文本上下文方面表现更佳。ReaderLM-v2的输入和输出总长度支持高达512K个标记。该模型提供29种语言的多语言支持，包括英语、中文、日语、韩语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、越南语、泰语、阿拉伯语等等。

第一代模型将HTML到Markdown的转换视为“选择性复制”任务，而v2则将其当作真正的翻译过程。这一转变使模型能够熟练运用Markdown语法，擅长生成代码块、嵌套列表、表格和LaTeX公式等复杂元素。

该模型已在HuggingFace平台上线。

训练过程

ReaderLM-v2基于Qwen2.5–1.5B-Instruction构建，这是一个紧凑的基础模型，在指令遵循和长文本上下文处理任务方面效率颇高。

ReaderLM-v2的成功在很大程度上依赖于其训练数据的质量。一个名为html-markdown-1m的数据集应运而生，其中包含从互联网上收集的100万个HTML文档。平均而言，每个文档包含5.6万个标记，反映了现实网络数据的长度和复杂性。为了准备这个数据集，HTML文件在保留关键结构和语义元素的同时，去除了JavaScript和CSS等不必要元素。清洗后，使用Jina Reader通过正则表达式模式和启发式方法将HTML文件转换为Markdown。

虽然这创建了一个可用的基线数据集，但也凸显了一个关键限制：仅在这些直接转换数据上训练的模型，本质上只是学习模仿Jina Reader使用的正则表达式模式和启发式方法。reader-lm-0.5b/1.5b就是明显的例子，其性能上限受到这些基于规则转换的质量制约。

为了解决这些限制，开发了一个三步流程，该流程依赖于Qwen2.5–32B-Instruction模型，这对于创建高质量的合成数据集至关重要。

起草：根据提供给模型的指令生成初始的Markdown和JSON输出。这些输出虽然多样，但往往存在噪声或不一致的问题。
优化：通过去除冗余内容、强化结构一致性并使其符合所需格式，对生成的草稿进行改进。这一步确保数据干净整洁，并符合任务要求。
评估：根据原始指令对优化后的输出进行评估。只有通过评估的数据才会被纳入最终数据集。这种迭代方法确保训练数据达到结构化数据提取所需的质量标准。

训练过程包含多个阶段，以应对处理长文本上下文文档的挑战。首先是长文本上下文预训练，使用html-markdown-1m数据集。采用环形锯齿注意力（ring-zag attention ）和旋转位置编码（RoPE）等技术，逐步将模型的上下文长度从32768个标记扩展到256000个标记。为了保持稳定性和效率，采用渐进式训练方法，从较短序列开始，逐步增加上下文长度。

预训练之后，进行监督微调（SFT）。这个阶段使用数据准备过程中生成的优化数据集。这些数据集包含Markdown和JSON提取任务的详细指令，以及优化草稿的示例。每个数据集都经过精心设计，帮助模型学习特定任务，例如识别主要内容或遵循基于模式的JSON结构。

然后应用直接偏好优化（DPO），使模型的输出与高质量结果保持一致。在这个阶段，模型在草稿和优化后的响应配对数据上进行训练。通过学习优先选择优化后的输出，模型内化了定义优质且特定任务结果的细微差别。

最后，实施自博弈强化调整，这是一个迭代过程，模型在其中生成、优化并评估自己的输出。这个循环使模型能够在无需额外外部监督的情况下持续改进。通过利用自身的评估和优化，模型逐渐提高生成准确结构化输出的能力。

第一个版本中的一个主要问题是退化现象，特别是在生成长序列后出现重复和循环。模型要么开始重复相同的标记，要么陷入循环，在一短串标记中循环，直到达到最大输出长度。ReaderLM-v2通过在训练过程中添加对比损失，极大地缓解了这个问题——无论上下文长度或已生成的标记数量如何，其性能都保持稳定。

评估情况

模型在三项任务上进行评估：

主要内容的HTML到Markdown转换
带指令的HTML到Markdown转换
基于模式的HTML到JSON转换

评估性能时综合使用评估内容准确性和结构保真度的指标。

对于HTML到Markdown转换，指标包括ROUGE-L、词错误率（WER）、替换率（SUB）、插入率（INS）、莱文斯坦距离（Levenshtein Distance）、达默劳-莱文斯坦距离（Damerau-Levenshtein Distance）和贾罗-温克勒相似度（Jaro-Winkler Similarity）。
对于HTML到JSON转换，使用F1值、精确率、召回率和通过率。

主要内容HTML到Markdown转换

ReaderLM-v2-pro在七项指标中的五项上取得了最佳成绩，与其他模型（包括参数更多的模型）相比，在内容保留和结构准确性方面有显著提升。ReaderLM-v2在部分指标上也优于其他模型。

带指令的HTML到Markdown转换

ReaderLM-v2和ReaderLM-v2-pro在ROUGE-L、替换率、莱文斯坦距离和贾罗-温克勒相似度方面领先。虽然GPT-4o在词错误率和达默劳距离上表现更好，但ReaderLM-v2-pro在整体内容结构和准确性方面保持得更好。

基于模式的HTML到JSON转换

ReaderLM-v2和ReaderLM-v2-pro表现出色，F1得分与更大的模型差距很小，并且保持了较高的通过率。

总体而言，ReaderLM-v2在所有评估任务中都展现出显著的进步，在内容准确性和结构保真度之间实现了良好的平衡。专业版（pro version）进一步提升了性能，尤其是在HTML到Markdown的转换任务中。

论文

ReaderLM v2: Frontier Small Language Model for HTML to Markdown and JSON

https://jina.ai/news/readerlm-v2-frontier-small-language-mode...

ReaderLM v2：前沿小型语言模型，实现HTML到Markdown和JSON的转换