关于一个网站的反爬虫问题

我现在遇到的这个网站,似乎是使用了distil networks这个反爬虫服务, 如果需要拿到数据就必须带上 cookie,不带 cookie 的请求都会被直接返回

<!DOCTYPE html>
<html>

<head>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<meta http-equiv="cache-control" content="max-age=0" />
<meta http-equiv="cache-control" content="no-cache" />
<meta http-equiv="expires" content="0" />
<meta http-equiv="expires" content="Tue, 01 Jan 1980 1:00:00 GMT" />
<meta http-equiv="pragma" content="no-cache" />
<meta http-equiv="refresh" content="10; url=/distil_r_captcha.html?requestId=953a747e-5387-423c-b87d-1d44f55e846b&httpReferrer=%2Fbook%2FFlight%2FSelect%3Fculture%3Dzh-CN%26type%3D1%26dst1%3DCAN%26ast1%3DSIN%26dd%3D2018-10-05%26adt%3D1%26chd%3D0%26inf%3D0" />
<script type="text/javascript">
    (function(window){
        try {
            if (typeof sessionStorage !== 'undefined'){
                sessionStorage.setItem('distil_referrer', document.referrer);
            }
        } catch (e){}
    })(window);
</script>
<script type="text/javascript" src="/tgrairwaysdstl.js" defer></script><style type="text/css">#d__fFH{position:absolute;top:-5000px;left:-5000px}#d__fF{font-family:serif;font-size:200px;visibility:hidden}#cfcxdbattebszfeeswyw{display:none!important}</style></head>
<body>
<div id="distilIdentificationBlock">&nbsp;</div>
</body>
</html>

而这个 cookie 的失效时间又很快,只有 5 分钟左右,并且用的次数多了,大概四五次也会失效,并且我使用 fiddler 跟踪,拿到所有 cookie 参数后,利用这个 cookie 依然无法拿到数据,我猜测其中的原因是因为我多次使用的P参数,虽然每次返回值都不一样,但是都不可用,p参数应该是只能使用一次的。希望这个问题能得到解答
图片描述

阅读 4.1k
3 个回答

关注一下,听说过distil这个东西,好像很厉害,建议可以试一下用Chrome Devtools Protocol,别的爬虫手段我感觉都有一些明显的特征

新手上路,请多包涵

我也是在爬一个网站的时候遇到了distil networks, 我用一个浏览器框架成功加载到了网页,但是在获取网页元素的时候document.getElementById的时候返回的全是空,需要找个组织讨论一下怎么攻破这个东西

新手上路,请多包涵

这个问题,我遇到了,不过,主要是301自动跳页问题,自动,不行,会被检测出来,手动跳页吧。我是手动跳解决了

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题