python爬虫——requests模拟登入,模拟登入豆瓣

2015-11-30
阅读 1 分钟
11.1k
1.下载抓包神器fiddler fiddler官网:fiddler下载,通常情况下下载fiddler2版本,一直Next就可以下载成功了。 2.登入你想爬取的界面(用ie浏览器) 如用ie登入进豆瓣:[链接]/"这时打开你的fiddler1.2.3. 找到cookie后代码模拟登入 {代码...} 拿到网页源代码后就是用正则,用xpath,用美味汤抓数据了。模拟登入还是很简单...

python爬虫——使用requests抓取百度贴吧小说,极客学院

2015-11-29
阅读 6 分钟
4.3k
1.抓取界面 {代码...} 2.生成多页列表 {代码...} 3.抓取百度贴吧小说代码 {代码...} 结果展示: 4.抓取极客学院内容 4.1爬极客学院课程的块的正则 {代码...} 4.2从每一个课程块中获取信息 {代码...} 4.3保存信息快 {代码...} 4.4主程序代码 {代码...} 4.5总代吗 {代码...} 结果展示: 后续备注:python>3.4 {代码...}...

简单利用urllib2搞爬虫

2015-10-22
阅读 1 分钟
1.9k
1.获取页面 {代码...} 2.抓取你想要的信息 {代码...}