python爬虫翻页后网址发生改变的相关问题

最近帮一个朋友爬取某生物网站上的内容，遇到了一些问题。
网站的url如下：

每页默认显示20条记录

但是翻页后

或者将记录显示的数量调整为500后，

链接发生了变化，复制该链接之后进入了另一个网页：

爬虫的代码如下：
import requests
from bs4 import BeautifulSoup

base_url = 'https://www.ncbi.nlm.nih.gov/gds'
wb_data = requests.get(base_url)
soup = BeautifulSoup(wb_data.text,'lxml')

url = link.get('href')
print(url)

链接为什么会发生这样的变化呢？
该代码只能爬取网页的前20条信息，如果我要获取页面中全部的信息，代码该做怎样的改进呢？

阅读 5.4k

3 个回答

得票最新

首先,这个网页我打不开.....所以也看不到实际的情况.
但从图片看,很可能是使用的ajax异步加载的
建议抓包看一下ajax请求的地址

新手上路，请多包涵

应该是Referer,你看一下requests headers

撰写回答

推荐问题

相似问题

找不到问题？创建新问题