lxml 解析巨大深嵌套DOM树的问题

阅读 1 分钟

今天客户反映，我们的微信爬虫，有一篇文章的信息不全：问题链接

仔细观察之后，我们发现，这篇文章是由135微信编辑器生成的，正文内容的DOM树非常深，有几百层。

使用 lxml.etree.HTML(text).xp(xpath)进行解析的时候，如果DOM树过深，就解析会提前中止。

在build etree时，调用的是lxml.etree.XMLParser 类，而XMLParser接收 huge_tree=True的参数，允许解析巨大DOM树，而etree.HTML又接收自定义Parser，所以上述代码修改为：

lxml.etree.HTML(text, lxml.etree.XMLParser(huge_tree=True)).xp(xpath)之后，就可以顺利解析了。

225 声望33 粉丝

Sorry, but I have to leave.-Weibo

« 上一篇

推荐阅读

PETCoder亚洲善待程序猿组织阅读 1.5k

Swift社区赞 1阅读 776

冒泡的马树阅读 3.3k评论 1

universe_king阅读 3k

qbit赞 1阅读 2.6k

TANKING阅读 2.1k

universe_king阅读 2k

0 条评论

得票最新

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。