最近试着爬一个网站,只要一对这个网站用request请求,网站立马封ip,这是怎么回事,是网站太严了还是代码的问题,代码如下,新手爬虫
from lxml import etree
import requests
if __name__ == "__main__":
url = "********************"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.49",
}
response = requests.get(url, headers).text #content
print(response)
由于你的url被模糊了,所以我无法判断你想爬取的网址具体情况是否是怎样的。因此,我从爬虫机制常见的安全角度谈一谈。

首先,网站可能会允许爬取内容,比如知名的是中国天气网,这类网站通常会作为一些信息技术,爬虫或者安全教材里的案例实践。
当然绝大部分是不允许爬取内容的,涉及到一个版权违规甚至是违法的问题,举个最直观的例子,“国内最先进的技术社区之一”:思否技术社区,没错,也就是我们现在交流的这个网站里。所以技术探讨要符合规范,法律。不要越界。
聊完法律规范,再聊这段代码本身的问题,爬虫的设计思路一般是先通过浏览器模拟正常访问,能否成功获取到想要的数据,再进行代码爬取。因此,可以尝试加入代理、更改 User-Agent、添加请求间隔等反爬虫措施
这里的代理和 user-agent 只是单纯的示例,如果你有更可靠的代理池和 user-agent 池,可以使用更高质量的代理和 user-agent 来避免被反爬虫策略封禁。