spider 的小案例

知识在于传递,互联网的发展让人们有了更丰富的知识阅览 。技术的出现因应时代的 发展 ,技术可以便捷生活。

定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫(general purpose web crawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。

https://github.com/hxj886600/...

https://github.com/hxj886600/...

这是两个spider的项目
*第一个是百度的图片
*第一个是http://www.bootcss.com/p/font...(可以引用图标的网站)的文件名字
用的的模块

核心模块

const http=require("http");
const fs=require("fs");
const  https=require("https")

引用的模块

const cheerio=require("cheerio")


var $=cheerio.load()

 res.setEncoding('binary');
 二进制方法保存保证不失真
 

主要用来引jq的模块
当然 也可直接引入jq的模块(不过不推荐使用)
加几张效果图吧
image
image
image

完成后会出现image 的文件,其中包括这几张图片 感兴趣的可以试一试


黄黄黄
119 声望6 粉丝

« 上一篇
vuex 小知识