如何清除html中 反复嵌套的标签

如何清除html中反复嵌套的标签

在帮人爬一个奇葩网站的数据中，发现一些网页的表格无论是用BeautifulSoup 还是 lxml解析都是失败或者不完整的。
查看页面源码发现，表格最后一列的所有数据虽然都只有一个 '-',但是内容却是藏在非常大量的无用标签底下。
其他列的数据只是在table/tbody/tr/td/div/span 下
仅这列的数据是在table/tbody/tr/td/div/span/+(非常多层的div span)下。

删除了部分多于的内容后，html文件百度网盘链接在此，
问题html文件

总的来说，我的问题就是，如何判别这种无限叠加的无效标签，并替换为能被BS或者lxml读取的格式？

现在正在试验的是 lxml中Cleaner类
page = open(test_path, encoding='utf-8').read()
cleaner = Cleaner(style=True, remove_tags=['div','span', 'font'])
page = cleaner.clean_html(page)

如果读入内容仅一层 tr的话倒是能正确清理了！
但是如果把整个表的html读入，进行清理，不知道因为什么原因。
只能读入到嵌套的地方未知，后续的内容全部被删。
初步怀疑是python的递归限制？

正在试验xpath。
试验失败。
通过xpath读取tabl下的tr标签查看数量。
发现也仅能读取嵌套位置前的tr标签，后续标签无法查询。

阅读 5.8k

如何清除html中反复嵌套的标签

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

问一个鼠标滚动事件，这种是怎么实现的？

form对象根据表单dom元素的name属性获取元素对象是基于什么标准的？兼容性如何？

如何清除html中 反复嵌套的标签

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

问一个鼠标滚动事件，这种是怎么实现的？

form对象根据表单dom元素的name属性获取元素对象是基于什么标准的？兼容性如何？

如何清除html中反复嵌套的标签