python后端实战经验分享 - SegmentFault 思否

scrapy Unhandled error in Deferred:

2020-10-28

阅读 2 分钟

4.2k

报错关键词builtins.TypeError: 'NoneType' object is not iterablestart_requests = iter(self.spider.start_requests())builtins.TypeError: 'NoneType' object is not iterable报错代码 {代码...} 错误原因 scrapy crawl spier_name -s LOG_FILE=all.log要把spier_name换成自己的爬虫名字

Scrapy爬取智联招聘

universe_king

2019-04-17

阅读 2 分钟

之前接了一个活，做的功能是从智联招聘爬取招聘信息赚了几百块零花钱实现了一个GUI，如图：虽然比较丑low，但是简洁明了，落落大方（已经是我水平的天花板了）具体功能说明就不了，大家都能看懂的。。。。智联招聘链接网页是这个样子的，反爬虫不强。还实现了一个功能，就是定时发送邮件如图：具体功能说明就不了，大家...

Scrapy框架get() 、getall() 、extract() 、extract_first()的区别

universe_king

2019-03-18

阅读 4 分钟

27.5k

看官方文档（链接附在文末），看到了关于get()、get()方法的使用，查阅网络没有资料，那就自己记录一下。y( ˙ᴗ. )耶~y( ˙ᴗ. )耶~y( ˙ᴗ. )耶~y( ˙ᴗ. )耶~y( ˙ᴗ. )耶~y( ˙ᴗ. )耶~y( ˙ᴗ. )耶~y( ˙ᴗ. )耶~y( ˙ᴗ. )耶~先说结论：对于scrapy.selector.unified.SelectorList对象，getall()==extract(),get()==extract_first()对...

Scrapy中的Reponse和它的子类（TextResponse、HtmlResponse、XmlResponse）

universe_king

2019-03-10

阅读 4 分钟

13.2k

因为网站是动态渲染的，所以选择scrapy对接selenium（scrapy抓取网页的方式和requests库相似，都是直接模拟HTTP请求，而Scrapy也不能抓取JavaScript动态渲染的网页。）