python爬虫翻页后网址发生改变的相关问题

最近帮一个朋友爬取某生物网站上的内容,遇到了一些问题。
网站的url如下:

https://www.ncbi.nlm.nih.gov/...

clipboard.png

每页默认显示20条记录

但是翻页后

clipboard.png

或者将记录显示的数量调整为500后,

clipboard.png

链接发生了变化,复制该链接之后进入了另一个网页:

clipboard.png

爬虫的代码如下:
import requests
from bs4 import BeautifulSoup

base_url = 'https://www.ncbi.nlm.nih.gov/gds'
wb_data = requests.get(base_url)
soup = BeautifulSoup(wb_data.text,'lxml')

for link in soup.select('https://www.ncbi.nlm.nih.gov/...'):

url = link.get('href')
print(url)

链接为什么会发生这样的变化呢?
该代码只能爬取网页的前20条信息,如果我要获取页面中全部的信息,代码该做怎样的改进呢?

阅读 5.2k
3 个回答

首先,这个网页我打不开.....所以也看不到实际的情况.
但从图片看,很可能是使用的ajax异步加载的
建议抓包看一下ajax请求的地址

新手上路,请多包涵

应该是Referer,你看一下requests headers

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题
宣传栏