个人编程学习 - SegmentFault 思否

python爬虫网页提取器——xpath

叫我瞄大人

2015-11-29

阅读 2 分钟

13.1k

xpath简单来说就是根据网页的源码路径去找你想要的的信息。例子： {代码...} 设网页文本如上：xpath简单提取方法（chrome的审查元素有xpath的提取方式） {代码...}

python爬虫——使用requests抓取百度贴吧小说，极客学院

叫我瞄大人

2015-11-29

阅读 6 分钟

4.6k

1.抓取界面 {代码...} 2.生成多页列表 {代码...} 3.抓取百度贴吧小说代码 {代码...} 结果展示： 4.抓取极客学院内容 4.1爬极客学院课程的块的正则 {代码...} 4.2从每一个课程块中获取信息 {代码...} 4.3保存信息快 {代码...} 4.4主程序代码 {代码...} 4.5总代吗 {代码...} 结果展示：后续备注：python>3.4 {代码...}...

随便学的VBA编程

叫我瞄大人

2015-10-23

阅读 5 分钟

4.1k

数据类型：字节型（Byte），整数型（Integer），长整数型（Long），单精度浮点型（Single），双精度浮点型（Double），货币型（Currency），小数型（Decimal），字符串型（String），日期型（Date），布尔型（Boolean）等

简单利用urllib2搞爬虫

叫我瞄大人

2015-10-22

阅读 1 分钟

2.1k

1.获取页面 {代码...} 2.抓取你想要的信息 {代码...}

讲点python基础知识

叫我瞄大人

2015-10-21

阅读 3 分钟

6.7k

运算符类型程序结构 1.分支结构例：代码设计： {代码...} 三段以上条件则：if,elif,else 2.循环结构range(起始值，终止值，步长) {代码...} 例：打印19个“我要吃饭” {代码...} continue：结束当次循环break:结束整个循环 {代码...} 正则表达式作用：字符串(str)匹配模式(re) 代码实例： {代码...} {代码...} 贪婪模式...

scrapy简单学习6—爬取百度贴吧图片（仿写向）

叫我瞄大人

2015-10-18

阅读 2 分钟

主要是对上一篇文章的简单仿写，大家以后想批量下载什么图片照格式仿写就好。由于本人是tfboys的粉丝，所以平常没事爱逛贴吧欣赏我家三小只的美图，所以这次就以贴吧[小王的讨论楼]为例，批量爬取该楼的图片[1]

scrapy简单学习5—图片下载，爬取妹子图

叫我瞄大人

2015-10-17

阅读 3 分钟

17.9k

学习网站：爬虫，整站爬取妹子图 1.item.py(定义爬取的内容) {代码...} 2.spider的编写 {代码...} 3.pipeline的编写（下载图片，新增图片） {代码...} 4.settings {代码...} 结果

scrapy简单学习4—西刺Ip的爬取

叫我瞄大人

2015-10-14

阅读 2 分钟

4.2k

学习网站：麦子scrapy第九集 1.item.py的定义 {代码...} 2.spider的编写 {代码...} 3.保存成csv {代码...} 4.结果输出

scrapy简单学习3—简单爬取中文网站（仿写向）

叫我瞄大人

2015-10-13

阅读 1 分钟

4.9k

3.保存文件:命令scrapy crawl lianhe -o lianhe.csv备注：excel打开出现乱码，用记事本转换成ANSI编码，excel打开中文可正常。4.完成样式：

scrapy简单学习2—解析简单的spider代码

叫我瞄大人

2015-10-11

阅读 1 分钟

3.7k

学习网站:麦子学院scrapy python网络爬虫解析代码： {代码...} 备注：简单的罗列一下有用的xpath路径表达式

scrapy简单学习

叫我瞄大人

2015-10-10

阅读 1 分钟

4.9k

学习网站：scrapy入门教程 1.创建项目：cmd打开scrapy所在位置，输入命令 {代码...} 2.定义item：编辑item.py,对您想要采集的数据类型进行定义。例如： {代码...} 3.编写爬虫：在spiders的文件下新建一个domz_spider.py文件，代码如下： {代码...} 4.启动爬虫：在cmd的命令行转至spiders的根目录下，输入命令 {代码...} ...