判断 proxy 参数是否有效的最简单办法就是乱填一个代理,比如 http://192.168.1.1:2666,如果不能访问,那就说明这个参数是有效的,如果能访问,大概率就是参数没效,不过 QueryList 的文档中已经表明了 proxy 是一个有效的参数。爬虫被识别的原因有很多,比如网页使用 JavaScript 设置一个 Cookie,而 QueryList 这类工具是不会执行 JavaScript 代码的,进而就没有这个 Cookie,自然就可以识别到这是一个爬虫。可以考虑使用一些无头浏览器,这些浏览器几乎就和正常访问网页一样,只是效率会更低,消耗的资源会更多。而大部分无头浏览器是有特征的,也可能会被高等级的风控所识别。
判断 proxy 参数是否有效的最简单办法就是乱填一个代理,比如
http://192.168.1.1:2666
,如果不能访问,那就说明这个参数是有效的,如果能访问,大概率就是参数没效,不过QueryList
的文档中已经表明了proxy
是一个有效的参数。爬虫被识别的原因有很多,比如网页使用 JavaScript 设置一个 Cookie,而 QueryList 这类工具是不会执行 JavaScript 代码的,进而就没有这个 Cookie,自然就可以识别到这是一个爬虫。
可以考虑使用一些无头浏览器,这些浏览器几乎就和正常访问网页一样,只是效率会更低,消耗的资源会更多。
而大部分无头浏览器是有特征的,也可能会被高等级的风控所识别。