Beautiful Soup 解析 url 以获取另一个 urls 数据

新手上路,请多包涵

我需要解析一个 url 以获取链接到详细信息页面的 url 列表。然后从该页面我需要从该页面获取所有详细信息。我需要这样做,因为详细信息页面 url 不会定期递增和更改,但事件列表页面保持不变。

基本上:

 example.com/events/
    <a href="http://example.com/events/1">Event 1</a>
    <a href="http://example.com/events/2">Event 2</a>

example.com/events/1
    ...some detail stuff I need

example.com/events/2
    ...some detail stuff I need

原文由 tim 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 494
2 个回答
import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen('http://yahoo.com').read()
soup = BeautifulSoup(page)
soup.prettify()
for anchor in soup.findAll('a', href=True):
    print anchor['href']

它会给你 url 列表。现在您可以遍历这些 url 并解析数据。

  • inner_div = soup.findAll("div", {"id": "y-shade"}) 这是一个例子。您可以浏览 BeautifulSoup 教程。

原文由 Tauquir 发布,翻译遵循 CC BY-SA 2.5 许可协议

对于遇到此问题的下一组人,BeautifulSoup 已升级到 v4,因为 v3 不再更新。

 $ easy_install beautifulsoup4

$ pip install beautifulsoup4

在 Python 中使用…

 import bs4 as BeautifulSoup

原文由 disuse 发布,翻译遵循 CC BY-SA 3.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题