我现在遇到的这个网站,似乎是使用了distil networks这个反爬虫服务, 如果需要拿到数据就必须带上 cookie,不带 cookie 的请求都会被直接返回
<!DOCTYPE html>
<html>
<head>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<meta http-equiv="cache-control" content="max-age=0" />
<meta http-equiv="cache-control" content="no-cache" />
<meta http-equiv="expires" content="0" />
<meta http-equiv="expires" content="Tue, 01 Jan 1980 1:00:00 GMT" />
<meta http-equiv="pragma" content="no-cache" />
<meta http-equiv="refresh" content="10; url=/distil_r_captcha.html?requestId=953a747e-5387-423c-b87d-1d44f55e846b&httpReferrer=%2Fbook%2FFlight%2FSelect%3Fculture%3Dzh-CN%26type%3D1%26dst1%3DCAN%26ast1%3DSIN%26dd%3D2018-10-05%26adt%3D1%26chd%3D0%26inf%3D0" />
<script type="text/javascript">
(function(window){
try {
if (typeof sessionStorage !== 'undefined'){
sessionStorage.setItem('distil_referrer', document.referrer);
}
} catch (e){}
})(window);
</script>
<script type="text/javascript" src="/tgrairwaysdstl.js" defer></script><style type="text/css">#d__fFH{position:absolute;top:-5000px;left:-5000px}#d__fF{font-family:serif;font-size:200px;visibility:hidden}#cfcxdbattebszfeeswyw{display:none!important}</style></head>
<body>
<div id="distilIdentificationBlock"> </div>
</body>
</html>
而这个 cookie 的失效时间又很快,只有 5 分钟左右,并且用的次数多了,大概四五次也会失效,并且我使用 fiddler 跟踪,拿到所有 cookie 参数后,利用这个 cookie 依然无法拿到数据,我猜测其中的原因是因为我多次使用的P参数,虽然每次返回值都不一样,但是都不可用,p参数应该是只能使用一次的。希望这个问题能得到解答
关注一下,听说过distil这个东西,好像很厉害,建议可以试一下用Chrome Devtools Protocol,别的爬虫手段我感觉都有一些明显的特征