Python beautifulsoup 爬虫如何实现翻页啊？

只想提取下一页上的href啊！

阅读 12.2k

4 个回答

得票最新

✓ 已被采纳

这个很明显了吧,
下一页是list_1_2.html,最后一页是list_1_117.html
中间页数是3到116啊
用一个for循环

for page in range(1, 118):
    url = "..list_1_{}.html".format(page)
    ....

希望对你有帮助：http://imchenkun.com/archives/6/ （不是广告,只是提供一个思路）

我简单说一下

ul = soup.find('div',attr={'class':'page'}).ul
lis = ul.find_all('li')
next = lis[-2]['href'] 因为下一页在倒数第二个，直接[-2]，得到href属性即可
爬虫写的不多，函数可能用的不对，但大致思路差不多。

获取下一页的html，然后请求下一页就可以了

撰写回答

推荐问题

相似问题

找不到问题？创建新问题