我正在尝试编写一个 python 程序来计算网页上的单词。我使用 Beautiful Soup 4 来抓取页面,但我很难访问嵌套的 HTML 标签(例如: <p class="hello">
里面 <div>
)。
每次我尝试使用 page.findAll()
(页面是包含整个页面的 Beautiful Soup 对象)方法查找此类标签时,它根本找不到任何东西,尽管有。有什么简单的方法或其他方法吗?
原文由 Asafwr 发布,翻译遵循 CC BY-SA 4.0 许可协议
我正在尝试编写一个 python 程序来计算网页上的单词。我使用 Beautiful Soup 4 来抓取页面,但我很难访问嵌套的 HTML 标签(例如: <p class="hello">
里面 <div>
)。
每次我尝试使用 page.findAll()
(页面是包含整个页面的 Beautiful Soup 对象)方法查找此类标签时,它根本找不到任何东西,尽管有。有什么简单的方法或其他方法吗?
原文由 Asafwr 发布,翻译遵循 CC BY-SA 4.0 许可协议
试试这个:
data = []
for nested_soup in soup.find_all('xyz'):
data = data + nested_soup.find_all('abc')
# data holds all shit together
也许您可以将其转换为 lambda 并让它变得很酷,但这行得通。谢谢。
原文由 Maifee Ul Asad 发布,翻译遵循 CC BY-SA 4.0 许可协议
2 回答5.2k 阅读✓ 已解决
2 回答1.1k 阅读✓ 已解决
4 回答1.4k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
3 回答1.3k 阅读✓ 已解决
2 回答1.5k 阅读✓ 已解决
2 回答902 阅读✓ 已解决
也许我猜你想做的是首先查看特定的 div 标签并搜索其中的所有 p 标签并计算它们或做任何你想做的事情。例如:
希望有帮助