新手上路，请多包涵

我需要解析一个 url 以获取链接到详细信息页面的 url 列表。然后从该页面我需要从该页面获取所有详细信息。我需要这样做，因为详细信息页面 url 不会定期递增和更改，但事件列表页面保持不变。

基本上：

 example.com/events/
    <a href="http://example.com/events/1">Event 1</a>
    <a href="http://example.com/events/2">Event 2</a>

example.com/events/1
    ...some detail stuff I need

example.com/events/2
    ...some detail stuff I need

原文由 tim 发布，翻译遵循 CC BY-SA 4.0 许可协议

python html parsing beautifulsoup

阅读 494

2 个回答

得票最新

社区维基

发布于
2022-12-19

✓ 已被采纳

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen('http://yahoo.com').read()
soup = BeautifulSoup(page)
soup.prettify()
for anchor in soup.findAll('a', href=True):
    print anchor['href']

它会给你 url 列表。现在您可以遍历这些 url 并解析数据。

inner_div = soup.findAll("div", {"id": "y-shade"}) 这是一个例子。您可以浏览 BeautifulSoup 教程。

原文由 Tauquir 发布，翻译遵循 CC BY-SA 2.5 许可协议

社区维基

发布于
2022-12-19

对于遇到此问题的下一组人，BeautifulSoup 已升级到 v4，因为 v3 不再更新。

 $ easy_install beautifulsoup4

$ pip install beautifulsoup4

在 Python 中使用…

 import bs4 as BeautifulSoup

原文由 disuse 发布，翻译遵循 CC BY-SA 3.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

Beautiful Soup 解析 url 以获取另一个 urls 数据

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

问一个鼠标滚动事件，这种是怎么实现的？

form对象根据表单dom元素的name属性获取元素对象是基于什么标准的？兼容性如何？

Stack Overflow 翻译