主要观点:运行文档通过语言模型或嵌入模型的应用需在输入模型前清理文本,作者构建个性化内容源[Scour]并寻找用于从抓取的 HTML 中提取文本的 Rust 板条箱,比较 13 个 Rust 板条箱后得出结论。
关键信息:
- 有 3 类 HTML 清理方法:HTML 到文本、HTML 到 Markdown、可读性。
- 13 个测试的板条箱大多使用
html5ever
解析 HTML,且部分使用不同的 DOM 树实现。 - 测试了不同类型网站,部分板条箱输出完全错误或效果不佳。
重要细节: - 介绍了各板条箱的输出、使用的解析器、树结构、知名用户和许可证等信息。
- 给出测试标准包括内容正确性、文本大小、速度、内存使用和格式等。
- 最终得出要检查 HTML 清理库输出,可选择
fast_html2md
和dom_smoothie
等板条箱,还提及 Jina 的语言模型可将 HTML 转换为 Markdown 及相关注意事项。可在多个平台讨论和订阅相关内容。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。