SF
Python 从零开始爬虫
Python 从零开始爬虫
注册登录
关注博客
注册登录
主页
关于
RSS
【暂时Over】Python 从零开始爬虫(十)给爬虫加速:多线程,多进程
忍野忍
2018-08-30
阅读 9 分钟
11k
普通的python爬虫是单进程单线程的,这样在遇到大量重复的操作时就只能逐个进行,我们就很难过了。举个栗子:你有1000个美图的链接,逐个喂给下载器(函数),看着图片只能一个个蹦出来,你不心急吗?于是我们想,能不能同时跑多个下载器,实现多图同时下载?——答案是可以的,使用多进程/多线程,把每个带着不同参数下载...
Python 从零开始爬虫(九)——模拟登录,cookie的使用
忍野忍
2018-07-31
阅读 4 分钟
50.3k
某些网站,登录和没登录,用户的权限是不一样的,帐号登录之后才能获取更多的信息。更有甚者一上来就是登录界面,不登录就不给你进去(如p站)。爬取目标不用登录固然是好,但需要时也没办法啊,这时如果还想爬取信息,就必须让爬虫学会登录。
Python 从零开始爬虫(八)——动态爬取解决方案 之 selenium
忍野忍
2018-07-24
阅读 7 分钟
16.8k
selenium——自动化测试工具,专门为Web应用程序编写的一个验收测试工具,测试其兼容性,功能什么的。然而让虫师们垂涎的并不是以上的种种,而是其通过驱动浏览器获得的解析JavaScript的能力。所以说这货在动态爬取方面简直是挂逼级别的存在,相较于手动分析更简单易用,节省分析打码时间。
Python 从零开始爬虫(七)——实战:网易云音乐评论爬取(附加密算法)
忍野忍
2018-05-21
阅读 8 分钟
17.6k
某宝评论区已经成功爬取了,jd的也是差不多的方法,说实话也没什么好玩的,我是看上它们分析简单,又没加密才拿来试手的。如果真的要看些有趣的评论的话,我会选择网易云音乐,里面汇聚了哲学家,小说家,story-teller,皮皮虾等各种人才,某些评论非常值得收藏(甚至开了一个歌单专门收藏它们)。竟然这么好玩,何不尝...
Python 从零开始爬虫(六)——动态爬取解决方案 之 手动分析
忍野忍
2018-05-09
阅读 2 分钟
7.5k
手动分析是一个比较有难度,比较麻烦的解决方案,但优点也很明显:速度快,又能培养我们爬虫的分析能力(重要)。如果链接有规律可循,建议能手动分析就手动分析,不能再上selenium(培养能力挺重要的不是麽?而且快的爬虫谁不想要呢?)
Python 从零开始爬虫(五)——初遇json&爬取某宝商品信息
忍野忍
2018-05-02
阅读 6 分钟
13.8k
json是轻量级的文本数据交换格式,符合json的格式的字符串叫json字符串,其格式就像python中字符串化后的字典,有时字典中还杂着列表字典,但是里面的数据都被双引号包着,下面是一个例子
Python 从零开始爬虫(四)——强大的正则表达式,re模块
忍野忍
2018-04-25
阅读 5 分钟
9.7k
如果把BeautifulSopu比喻成通过线索一步步接近目标的侦探的话,那么正则表达式就是牛逼哄哄的“天眼系统”,只要提供一些目标的特征,无论搜索范围多大,只要存在那么一两个符合特征的目标,全都会被它直接逮住。
Python 从零开始爬虫(三)——实战:requests+BeautifulSoup实现静态爬取
忍野忍
2018-04-21
阅读 4 分钟
12.8k
这是一个老掉牙的经典实例了,但越是经典,越有示范性作用,最重要的一点是,它是静态的。给出网站:[链接]打开F12/右键检查第一个电影,分析源码先,发现每个<li>标签就对应着一个电影的信息。
Python 从零开始爬虫(二)——BeautifulSoup解析网页
忍野忍
2018-04-21
阅读 4 分钟
22.1k
学了requests,了解了伪装技巧后,终于能爬到些比较正常的网页源码(html文档)了,但这离结果还差最后和是最重要的一步——筛选。这个过程就像在泥沙中淘金一样,没有合适的筛子,你就会把有价值的漏掉了,或者做了无用功把没用的也筛了出来。淘金者看土质,做筛子。对应到爬虫领域就是观察html,定制筛选器。
Python 从零开始爬虫(一)——爬虫伪装&反“反爬”
忍野忍
2018-04-17
阅读 2 分钟
22.4k
之前提到过,有些网站是防爬虫的。其实事实是,凡是有一定规模的网站,大公司的网站,或是盈利性质比较强的网站,都是有高级的防爬措施的。总的来说有两种反爬策略,要么验证身份,把虫子踩死在门口;要么在网站植入各种反爬机制,让爬虫知难而退。 本节内容就着这两种反爬策略提出一些对策。
Python 从零开始爬虫(零)——爬虫思路&requests模块使用
忍野忍
2018-04-14
阅读 2 分钟
12.2k
本爬虫系列是面对有Python语法基础的读者写的,如果你没学过python,emmmm.....也没关系,你或许能从每篇文章中学到一些爬虫的思路;如果你的python基础语法已经应用自如,那是极好的。