scrapy Unhandled error in Deferred:

2020-10-28
阅读 2 分钟
4.2k
报错关键词builtins.TypeError: 'NoneType' object is not iterablestart_requests = iter(self.spider.start_requests())builtins.TypeError: 'NoneType' object is not iterable报错代码 {代码...} 错误原因 scrapy crawl spier_name -s LOG_FILE=all.log要把spier_name换成自己的爬虫名字

Scrapy爬取智联招聘

2019-04-17
阅读 2 分钟
4k
之前接了一个活,做的功能是从智联招聘爬取招聘信息赚了几百块零花钱实现了一个GUI,如图:虽然比较丑low,但是简洁明了,落落大方(已经是我水平的天花板了)具体功能说明就不了,大家都能看懂的。。。。智联招聘链接网页是这个样子的,反爬虫不强。还实现了一个功能,就是定时发送邮件如图:具体功能说明就不了,大家...

Scrapy框架get() 、getall() 、extract() 、extract_first()的区别

2019-03-18
阅读 4 分钟
27.5k
看官方文档(链接附在文末),看到了关于get()、get()方法的使用,查阅网络没有资料,那就自己记录一下。y( ˙ᴗ. )耶~y( ˙ᴗ. )耶~y( ˙ᴗ. )耶~y( ˙ᴗ. )耶~y( ˙ᴗ. )耶~y( ˙ᴗ. )耶~y( ˙ᴗ. )耶~y( ˙ᴗ. )耶~y( ˙ᴗ. )耶~先说结论:对于scrapy.selector.unified.SelectorList对象,getall()==extract(),get()==extract_first()对...

Scrapy中的Reponse和它的子类(TextResponse、HtmlResponse、XmlResponse)

2019-03-10
阅读 4 分钟
13.2k
因为网站是动态渲染的,所以选择scrapy对接selenium(scrapy抓取网页的方式和requests库相似,都是直接模拟HTTP请求,而Scrapy也不能抓取JavaScript动态渲染的网页。)