python import 机制初探

2019-07-24
阅读 2 分钟
2.8k
其余文件为空。如果我们用运行命令: python cat/cat.py,则程序正常运行;如果运行命令;python -m cat.cat,则会报错;

通读Python官方文档之wsgiref(未完成)

2017-12-30
阅读 6 分钟
4.3k
Web服务器网关接口(Web Server Gateway Interface, WSGI),是用Python写的一个服务器软件和web应用之间的通用接口。使用通用接口,能够使同一个应用方便的被不同过的web服务器调用。

通读Python官方文档之协程、Future与Task

2017-12-28
阅读 5 分钟
16.7k
这个问题的恶心之处在于,如果你要理解coroutine,你应该理解future和task。而你如果想理解future和task你应该先理解coroutine。所以在第一遍阅读官方文档的时候,感觉完全是在梦游。但读到第二遍和第三遍的时候,就清楚很多了。

通读Python官方文档之cgitb

2017-12-28
阅读 1 分钟
7.7k
cgitb模块为Python脚本提供了一个特殊的异常管理器。名字有点误导人,它最初设计是为了以HTML格式展示cgi脚本的大量异常信息。后来,他扩展为也可以展示纯文本信息。该模块激活后,如果发生了未捕获的异常,将会展示格式化的输出报告。该报告包括源代码每一层的回溯,以及当前执行程序的参数和局部变量。以及,你可以选...

通读Python官方文档之cgi

2017-12-28
阅读 4 分钟
3.4k
cgi 通用网关接口 前驱知识 网关协议学习:CGI、FastCGI、WSGI 简单点说: web服务器接受请求,启动CGI;CGI接受请求,处理,返回给服务器;服务器返回给用户 cgi效率不高,每次都要fork一个新进程出来 WCGI,Python架设的一个桥,连接了服务器和web框架,相当将cgi的连接功能独立了出来,并把处理功能留给了web框架 简...

通读Python官方文档之Threading

2017-12-26
阅读 2 分钟
4.8k
Python的threading模块松散地基于Java的threading模块。但现在线程没有优先级,没有线程组,不能被销毁、停止、暂停、开始和打断。 Java Thread类的静态方法,被移植成了模块方法。

全站爬虫项目一阶段总结

2016-12-16
阅读 1 分钟
2.2k
虽然现在效果仍然不理想,但已经是一个可用、可调优的框架,在几个关键环节,都实现了脱耦合,可以轻易的扩展。一些常用代码,也通过scrapy 得到了充分的复用。

xpath学习

2016-12-08
阅读 1 分钟
2.5k
多重属性筛选//tag[@attr0][@attr1]: response.xpath('//embed[@type="application/x-shockwave-flash"][@width>200]/@width')

深入理解scray源码之禁止翻页

2016-12-05
阅读 1 分钟
2.2k
所以我们需要自己构建一个新的link extractor。通过阅读源码,我们发现LinkExtractor 的公开方法extract_links返回的是一个scrapy.link中的Link列表,而Link对象有四个槽:url,text, fragment, nofollow。我们在这里我们只要对url属性做一下过滤就可以了。

rss更新频率

2016-11-23
阅读 1 分钟
4.8k
如果目标网站提供了rss源,再写爬虫去匹配,就是智障了。但是该以什么频率去访问rss源呢?网络上似乎不太容易找到这个问题的答案。 直接访问rss的官方文档:[链接] 里面写的很清楚,rss规定的xml语法中有三个地方可以指定更新频率: <ttl>标签指定生存时间 <skipDays>和<skipHours>标签标明哪些日期(...

python下的sqlite使用

2016-11-18
阅读 2 分钟
2.6k
环境:python2.7 在处理微信朋友圈数据的过程中,需要对sqlite进行一些处理,只处理增量数据。已经处理过的,不再处理。 使用rowid 在sqlite中有64位的 ROWID,ROWID默认是自增的。我们用这个特性,来处理我们的增量数据。 记录上次ROWID 创建一个sqlite记录数据 {代码...}

搜狗微信爬虫

2016-11-04
阅读 1 分钟
3.8k
爬虫现状: 收录账号1200万(大部分是死号) 每日爬取160万 在业内算什么水平?

复杂爬虫编写心得

2016-07-08
阅读 1 分钟
3.2k
信息收集和网站地图绘制比编程更重要。 浏览器访问效率的最大值是爬虫效率的最低值。 永远不要使用selenium,尽量不要使用phantomjs 对于脾气暴躁、技术能力强的网站,要让爬虫变的友善 复杂爬虫不宜过度优化,越冗余,维护成本越低。 尽量使用api和手机端接口。

某网页数据爬取记录

2015-09-08
阅读 1 分钟
2.5k
我一直以为这是某种加密传递。知道前段时间看了base64编码的相关知识,才意识到自己傻逼了。但看编码的内容明显不是base64,而应该是base16。

Fiddler更新日志

2015-04-03
阅读 7 分钟
4.8k
Monday, March 30, 2015 by Fiddler Fiddler version 4.5 (and v2.5 targeting .NET2) is now available for download. The new version represents the largest set of improvements for Fiddler in over three years, and includes hundreds of bug-fixes and new features—please download it now!