最近看到了一个案例:
主管让小美(我编的名字)去某官网查询A公司在20xx年-20xx年的处罚判决书,研究了半天没发现什么便捷办法,只能先搜关键词处罚,再筛选公司名称,但是一共有二十多个省份,这么做效率实在是太低了.
于是小美找到了擅长python的B同学,看看能否直接爬取数据,在excel里面筛选,经过沟通,写代码,一顿操作之后,成功跑出来了第一个省份的数据
结果你猜怎么着….正在跑第二个省份的时候,网站里突然搜不到信息了,这就是触发了网页的防御机制,IP被封禁了。
可怜的小美只能决定继续人工搜索。。。
其实这件事的解决方法特别的简单,协采云来帮你解决:选择一家专业代理IP的运营商,选择合适的动态IP,就可以避免这种情况啦!
这位爬虫er,由于经验不够丰富,要知道:代码好写,但是爬虫不光是一段代码就能顺利跑起来的啊,因为一般来说,网页为了让自己的网站正常运行,或者保护自己的内容不被窃取,都会设有反爬虫机制,封禁IP就是其中的一种手段,还有各种反爬策略,使用代理IP可以很好的解决这种问题。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。