Python beautifulsoup 爬虫如何实现翻页啊?

clipboard.png
只想提取下一页上的href啊!

阅读 12k
4 个回答

这个很明显了吧,
下一页是list_1_2.html,最后一页是list_1_117.html
中间页数是3到116啊
用一个for循环

for page in range(1, 118):
    url = "..list_1_{}.html".format(page)
    ....

我简单说一下

  1. ul = soup.find('div',attr={'class':'page'}).ul

  2. lis = ul.find_all('li')

  3. next = lis[-2]['href'] 因为下一页在倒数第二个,直接[-2],得到href属性即可
    爬虫写的不多,函数可能用的不对,但大致思路差不多。

获取下一页的html,然后请求下一页就可以了

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题