楚江数据是专业的互联网数据技术服务,现整理出零基础如何学爬虫技术以供学习,http://www.chujiangdata.com。
第一:Python爬虫学习系列教程(来源于某博主:http://cuiqingcai.com/1052.html)
Python版本:2.7
整体目录:
一、爬虫入门
Python爬虫入门一之综述
Python爬虫入门二之爬虫基础了解
Python爬虫入门三之Urllib库的基本使用
Python爬虫入门四之Urllib库的高级用法
Python爬虫入门五之URLError异常处理
Python爬虫入门六之Cookie的使用
Python爬虫入门七之正则表达式
二、爬虫实战Python爬虫实战一之爬取糗事百科段子
Python爬虫实战二之爬取百度贴吧帖子
Python爬虫实战三之实现山东大学无线网络掉线自动重连
Python爬虫实战四之抓取淘宝MM照片
Python爬虫实战五之模拟登录淘宝并获取所有订单
Python爬虫实战六之抓取爱问知识人问题并保存至数据库
Python爬虫实战七之计算大学本学期绩点
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
三、爬虫利器Python爬虫利器一之Requests库的用法
Python爬虫利器二之Beautiful Soup的用法
Python爬虫利器三之Xpath语法与lxml库的用法
Python爬虫利器四之PhantomJS的用法
Python爬虫利器五之Selenium的用法
Python爬虫利器六之PyQuery的用法
四、爬虫进阶Python爬虫进阶一之爬虫框架概述
Python爬虫进阶二之PySpider框架安装配置
Python爬虫进阶三之爬虫框架Scrapy安装配置
Python爬虫进阶四之PySpider的用法
第二(第一的姊妹篇):Python爬虫入门教程(来源于博主:blog.csdn.net/column/details/why-bug.html)
Python版本:2.7
教程目录:
[Python]网络爬虫(一):抓取网页的含义和URL基本构成
[Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容
[Python]网络爬虫(三):异常的处理和HTTP状态码的分类
[Python]网络爬虫(四):Opener与Handler的介绍和实例应用
[Python]网络爬虫(五):urllib2的使用细节与抓站技巧
[Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
[Python]网络爬虫(七):Python中的正则表达式教程
[Python]网络爬虫(八):糗事百科的网络爬虫(v0.3)源码及解析(简化更新)
[Python]网络爬虫(九):百度贴吧的网络爬虫(v0.4)源码及解析
[Python]网络爬虫(十):一个爬虫的诞生全过程(以山东大学绩点运算为例)
[Python]网络爬虫(11):亮剑!爬虫框架小抓抓Scrapy闪亮登场!
[Python]网络爬虫(12):爬虫框架Scrapy的第一个爬虫示例入门教程
第三:你已经看完上面(第一或者第二)的教程:再推荐知乎用户@陈唯源 的实战练习博客
Python爬虫学习记录(1)——Xiami全站播放数
Python爬虫学习记录(2)——LDA处理歌词
百度音乐带标签,作曲,演唱者,类别的歌词数据
Python爬虫学习记录(4)——传说中的足彩倍投法。。好像也不是那么靠谱
2011~2013.5全球所有足球比赛比分数据以及足彩各公司盘口
Python爬虫学习记录(3)——用Python获取虾米加心歌曲,并获取MP3下载地址
Python爬虫学习记录(5)——python mongodb + 爬虫 + web.py 的acfun视频排行榜
Python爬虫学习记录(0)——Python 爬虫抓站 记录(虾米,百度,豆瓣,新浪微博)
第四:最后推荐知乎用户@gaga salamer 的实战练习博客
爬虫教程(1)基础入门
爬虫教程(2)性能进阶
知乎用户信息爬虫(规模化爬取)
用scrapy爬取豆瓣电影新片榜
用scrapy对豆瓣top250页面爬取(多页面爬取)
用scrapy自动爬取下载图片
用scrapy自动下载石原sama的豆瓣影人图集(727张图片,自动下载)
希望以上的教程可以帮助到大家。
本文来源:知乎
作者:路人甲
链接:https://www.zhihu.com/questio...
楚江数据提供网站APP数据采集和爬虫软件定制开发服务,服务范围涵盖社交网络、电子商务、分类信息、学术研究等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。