通读Python官方文档 - SegmentFault 思否

cgitb模块为Python脚本提供了一个特殊的异常管理器。名字有点误导人，它最初设计是为了以HTML格式展示cgi脚本的大量异常信息。后来，他扩展为也可以展示纯文本信息。该模块激活后，如果发生了未捕获的异常，将会展示格式化的输出报告。该报告包括源代码每一层的回溯，以及当前执行程序的参数和局部变量。以及，你可以选...

通读Python官方文档之cgi

PETCoder亚洲善待程序猿组织

2017-12-28

阅读 4 分钟

3.7k

cgi 通用网关接口前驱知识网关协议学习：CGI、FastCGI、WSGI 简单点说： web服务器接受请求，启动CGI；CGI接受请求，处理，返回给服务器；服务器返回给用户 cgi效率不高，每次都要fork一个新进程出来 WCGI，Python架设的一个桥，连接了服务器和web框架，相当将cgi的连接功能独立了出来，并把处理功能留给了web框架简...

通读Python官方文档之Threading

PETCoder亚洲善待程序猿组织

2017-12-26

阅读 2 分钟

5.1k

Python的threading模块松散地基于Java的threading模块。但现在线程没有优先级，没有线程组，不能被销毁、停止、暂停、开始和打断。 Java Thread类的静态方法，被移植成了模块方法。

使用pythonz创建新的Python环境（3.6）

PETCoder亚洲善待程序猿组织

2017-12-20

阅读 1 分钟

2.2k

{代码...}

全站爬虫项目一阶段总结

PETCoder亚洲善待程序猿组织

2016-12-16

阅读 1 分钟

2.3k

虽然现在效果仍然不理想，但已经是一个可用、可调优的框架，在几个关键环节，都实现了脱耦合，可以轻易的扩展。一些常用代码，也通过scrapy 得到了充分的复用。

xpath学习

PETCoder亚洲善待程序猿组织

2016-12-08

阅读 1 分钟

2.6k

多重属性筛选//tag[@attr0][@attr1]： response.xpath('//embed[@type="application/x-shockwave-flash"][@width>200]/@width')

深入理解scray源码之禁止翻页

PETCoder亚洲善待程序猿组织

2016-12-05

阅读 1 分钟

2.4k

所以我们需要自己构建一个新的link extractor。通过阅读源码，我们发现LinkExtractor 的公开方法extract_links返回的是一个scrapy.link中的Link列表，而Link对象有四个槽：url,text, fragment, nofollow。我们在这里我们只要对url属性做一下过滤就可以了。

rss更新频率

PETCoder亚洲善待程序猿组织

2016-11-23

阅读 1 分钟

5.1k

如果目标网站提供了rss源，再写爬虫去匹配，就是智障了。但是该以什么频率去访问rss源呢？网络上似乎不太容易找到这个问题的答案。直接访问rss的官方文档：[链接] 里面写的很清楚，rss规定的xml语法中有三个地方可以指定更新频率： <ttl>标签指定生存时间 <skipDays>和<skipHours>标签标明哪些日期（...

python下的sqlite使用

PETCoder亚洲善待程序猿组织

2016-11-18

阅读 2 分钟

2.7k

环境：python2.7 在处理微信朋友圈数据的过程中，需要对sqlite进行一些处理，只处理增量数据。已经处理过的，不再处理。使用rowid 在sqlite中有64位的 ROWID，ROWID默认是自增的。我们用这个特性，来处理我们的增量数据。记录上次ROWID 创建一个sqlite记录数据 {代码...}

搜狗微信爬虫

PETCoder亚洲善待程序猿组织

2016-11-04

阅读 1 分钟

3.9k

爬虫现状：收录账号1200万（大部分是死号）每日爬取160万在业内算什么水平？

复杂爬虫编写心得

PETCoder亚洲善待程序猿组织

2016-07-08

阅读 1 分钟

3.3k

信息收集和网站地图绘制比编程更重要。浏览器访问效率的最大值是爬虫效率的最低值。永远不要使用selenium，尽量不要使用phantomjs 对于脾气暴躁、技术能力强的网站，要让爬虫变的友善复杂爬虫不宜过度优化，越冗余，维护成本越低。尽量使用api和手机端接口。

某网页数据爬取记录

PETCoder亚洲善待程序猿组织

2015-09-08

阅读 1 分钟

2.7k

我一直以为这是某种加密传递。知道前段时间看了base64编码的相关知识，才意识到自己傻逼了。但看编码的内容明显不是base64，而应该是base16。

Monday, March 30, 2015 by Fiddler Fiddler version 4.5 (and v2.5 targeting .NET2) is now available for download. The new version represents the largest set of improvements for Fiddler in over three years, and includes hundreds of bug-fixes and new features—please download it now!