问题描述
抓取的网站是:http://www.hljcredit.gov.cn/W...
源码中
<a href='WebCreditQueryService.do?sxbzxrQgDetail&dsname=hlj&dt=1&icautiouid=1230610007039893636&srandRe=J7137HK1408EJB2JQ9P05UF3949HWD' style="text-decoration: underline;" target='_blank' title='陈涤非' style="">
的url是如何生成的? 刷新页面后这个url后面那个srandRe会随机变化。 如果要访问WebCreditQueryService.do?sxbzxrQgDetail&dsname=hlj&dt=1&icautiouid=1230610007039893636&srandRe=J7137HK1408EJB2JQ9P05UF3949HWD 这个连接,就需要带上那个随机参数, 我就想这个随机数是如何生成的?
因为爬虫的时候把这个url下抓取下来,但是过大概1分钟这个连接就会过期,无法访问。 所以我觉得这个随机数是用来控制你浏览缓冲时间的。
问题出现的环境背景及自己尝试过哪些方法
相关代码
// 请把代码文本粘贴到下方(请勿用图片代替代码)
都说了是rand了,说明是服务器自动生成的一个token,去掉以后会提示“勿恶意访问和攻击”,说明本身就是一个防护策略。
如果想要下次使用的话,我测试了一下,这个srandRe可以当场生成,和前面的id没关系,需要使用的时候当场去抓一下列表页取到这个srandRe然后拼到对应链接处即可