最近帮一个朋友爬取某生物网站上的内容,遇到了一些问题。
网站的url如下:
https://www.ncbi.nlm.nih.gov/...
每页默认显示20条记录
但是翻页后
或者将记录显示的数量调整为500后,
链接发生了变化,复制该链接之后进入了另一个网页:
爬虫的代码如下:
import requests
from bs4 import BeautifulSoup
base_url = 'https://www.ncbi.nlm.nih.gov/gds'
wb_data = requests.get(base_url)
soup = BeautifulSoup(wb_data.text,'lxml')
for link in soup.select('https://www.ncbi.nlm.nih.gov/...'):
url = link.get('href')
print(url)
链接为什么会发生这样的变化呢?
该代码只能爬取网页的前20条信息,如果我要获取页面中全部的信息,代码该做怎样的改进呢?

首先,这个网页我打不开.....所以也看不到实际的情况.
但从图片看,很可能是使用的ajax异步加载的
建议抓包看一下ajax请求的地址