想用python爬虫实现登陆B站,但B站有验证码,我又不知道怎么把图片下下来,因为你在输入时要点那个框才能显示图片,而每张图片刷新一次又随机。所以我就想人工登陆一次,找到cookies,下次登陆带上cookies就绕过验证码登陆了。
用Fidller查看了下,表面上是这个URL:https://passport.bilibili.com/login
,
但post的实际是这个URL:https://passport.bilibili.com/login/dologin
,所以我就看服务器返回的cookies:
我的代码是这样的:
import requests
cookies = {
'DedeUserID': 'XXX',
'DedeUserID__ckMd5': 'XXX',
'SESSDATA': 'XXX'
}
url = 'https://passport.bilibili.com/login/dologin'
s = requests.session()
html = s.get(url, cookies=cookies) # 登陆
print(str(html.status_code))
当然,输出的状态码是404,然后我去掉了'/dologin',就输出200。
但这是因为'https://passport.bilibili.com/login
这个是谁都可以GET的吧
求大神给出解释或可执行思路
手动登录一次,把cookie都丢到python里面去请求。