ai+大模型+爬虫现在遇到的问题是 html 往往很大，甚至可以说体积是超级超级大，几百KB甚至几MB 但是 LLM 的上下文比较小，输入的 html 这么大，非常的糟糕但是又不能去除掉所有的 html 标签，因为这样就是失去了原始信息了，怎么有选择性的把有效且精简的数据输入给 llm 呢？

探索, 一个人给我分享了他做的：一日一技：使用大模型实现全自动爬虫（一） https://github.com/kingname/AutoCrawler 他的原理是：调用 http 库请求 url 的 response，拿到 html 先本地处理一下 html，去掉一些非必要标签，减少 html 的体积（这是最关键的，是避免 input prompt 太大费钱的关键）把处理后的 html 完整且直接的输入给 llm 大模型让 llm 返回需要字段的 xpath （直接输出字段可能会占用很多的 output prompt，很浪费钱）拿到 llm 返回的 xpath 并且使用 lxml 做本地的字段解析发现一个问题阻碍使用 llm 做爬虫的问题就是 llm 的输出可能会比较小 https://bigmodel.cn/dev/howuse/model 模型描述上下文最大输出 GLM-4-Plus New 高智能旗舰 : 性能全面提升，长文本和复杂任务能力显著增强 128K 4K GLM-4-0520 高智能模型：适用于处理高度复杂和多样化的任务 128K 4K GLM-4-Long 超长输入：专为处理超长文本和记忆型任务设计 1M 4K GLM-4-AirX 极速推理：具有超快的推理速度和强大的推理效果 8K 4K GLM-4-Air 高性价比：推理能力和价格之间最平衡的模型 128K 4K GLM-4-FlashX 高速低价：Flash增强版本，超快推理速度。 128K 4K GLM-4-Flash 免费调用：智谱AI首个免费API，零成本调用大模型。 128K 4K GLM-4V 图像理解：具备图像理解能力和推理能力 2K 1k GLM-4-AllTools Agent模型：自主规划和执行复杂任务 128K 4K GLM-4 旧版旗舰：发布于2024年1月16日，目前已被GLM-4-0520取代 128K 4K 比如只有 4k，这导致解析长文本的内容，就会不够用

如何使用 LLM 来做爬虫的页面通用解析？

2 个回答

得票最新

FelixAn

1k1216

发布于
2024-09-13 吉林

✓ 已被采纳

刚好前一段弄个类似的需求，大概说下思路，主要是移除无用的标签和代码，精简发给大模型的上下文，步骤如下：
1、首先用node-html-parser解析页面，这步就过滤掉了script、style、noscript之类的
2、创建一个新的根元素
3、弄一个标签和属性的白名单
4、遍历第1步解析好的DOM树，这里用的深度优先，在白名单内的挂到第2步的根元素中
5、返回第2步根元素的innerHTML

universe_king

3.4k14411869

发布于
2024-10-21 浙江

更新于
2024-12-26

探索, 一个人给我分享了他做的：

一日一技：使用大模型实现全自动爬虫（一）

https://github.com/kingname/AutoCrawler

他的原理是：

调用 http 库请求 url 的 response，拿到 html
先本地处理一下 html，去掉一些非必要标签，减少 html 的体积（这是最关键的，是避免 input prompt 太大费钱的关键）
把处理后的 html 完整且直接的输入给 llm 大模型
让 llm 返回需要字段的 xpath （直接输出字段可能会占用很多的 output prompt，很浪费钱）
拿到 llm 返回的 xpath 并且使用 lxml 做本地的字段解析

发现一个问题阻碍使用 llm 做爬虫的问题

就是 llm 的输出可能会比较小

https://bigmodel.cn/dev/howuse/model

模型	描述	上下文	最大输出
GLM-4-Plus `New`	高智能旗舰: 性能全面提升，长文本和复杂任务能力显著增强	128K	4K
GLM-4-0520	高智能模型：适用于处理高度复杂和多样化的任务	128K	4K
GLM-4-Long	超长输入：专为处理超长文本和记忆型任务设计	1M	4K
GLM-4-AirX	极速推理：具有超快的推理速度和强大的推理效果	8K	4K
GLM-4-Air	高性价比：推理能力和价格之间最平衡的模型	128K	4K
GLM-4-FlashX	高速低价：Flash增强版本，超快推理速度。	128K	4K
GLM-4-Flash	免费调用：智谱AI首个免费API，零成本调用大模型。	128K	4K
GLM-4V	图像理解：具备图像理解能力和推理能力	2K	1k
GLM-4-AllTools	Agent模型：自主规划和执行复杂任务	128K	4K
GLM-4	旧版旗舰：发布于2024年1月16日，目前已被GLM-4-0520取代	128K	4K

比如只有 4k，这导致解析长文本的内容，就会不够用

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

被 1 篇内容引用

使用LLM大模型技术做手机/网页/浏览器自动化操作——技术汇总

推荐问题

如何使用 LLM 来做爬虫的页面通用解析？

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

浏览器能请求到数据怎么换了api工具或是爬虫都没数据了呢？

电脑和手机都连同一个WIFI怎么用fiddler获取手机端的请求？

base32 crockford 编码与其他语言的实现结果不同?

怎么抓皮皮虾的包？

MCP是什么，可以通俗易懂的讲解一下吗？

现在哪个多模态视觉ai大模型可以用于 ocr 识别反爬虫验证码？