新手上路，请多包涵

我正在尝试从漂亮的汤中获取所有 html 标签的列表。

我看到 find all 但在搜索之前我必须知道标签的名称。

如果有像这样的文字

html = """<div>something</div>
<div>something else</div>
<div class='magical'>hi there</div>
<p>ok</p>"""

我怎样才能得到像这样的清单

list_of_tags = ["<div>", "<div>", "<div class='magical'>", "<p>"]

我知道如何使用正则表达式执行此操作，但我正在尝试学习 BS4

原文由 humanbeing 发布，翻译遵循 CC BY-SA 4.0 许可协议

python html beautifulsoup

阅读 704

2 个回答

得票最新

社区维基

发布于
2022-12-19

✓ 已被采纳

您不必为 find_all() 指定任何参数 - 在这种情况下， BeautifulSoup 会递归地找到树中的每个标签。

样本：

 from bs4 import BeautifulSoup

html = """<div>something</div>
<div>something else</div>
<div class='magical'>hi there</div>
<p>ok</p>
"""
soup = BeautifulSoup(html, "html.parser")

print([tag.name for tag in soup.find_all()])
# ['div', 'div', 'div', 'p']

print([str(tag) for tag in soup.find_all()])
# ['<div>something</div>', '<div>something else</div>', '<div class="magical">hi there</div>', '<p>ok</p>']

原文由 alecxe 发布，翻译遵循 CC BY-SA 4.0 许可协议

查看全部 2 个回答

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

使用 Beautiful Soup 获取所有 HTML 标签

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

问一个鼠标滚动事件，这种是怎么实现的？

css如何设置纵向滚动条的高度？

Stack Overflow 翻译