Node 批量抓取并下载某站点的图片

目标网站：妹子图（点进去别忘了回来~~）
项目功能：批量下载该网站的相册
姊妹项目：批量爬取并下载头条视频

启动项目

命令

npm i
npm start

配置文件

// 配置相关
module.exports =  {
  originPath: 'http://www.mzitu.com', // 请求地址
  savePath: 'E:/meizi', // 存放路径
  maxPage: 20 // 可爬取的最大页码
}

技术点

Axios: 发起 get 请求，获取页面和图片 stream

// 获取页面
async getPage (url) {
  return {
    res: await axios.get(url)
  }
}
// 把获取的文件写入本地
await axios({
  method: 'get',
  url: imageSrc,
  responseType: 'stream',
  headers
}).then(function(response) {
  response.data.pipe(fs.createWriteStream(fileName))
})

Cheerio: 覆盖了 jQuery dom 部分核心 API，可操作获取的文档对象

// res.data： 获取的文档对象
let list = []
const $ = cheerio.load(res.data)
// 获取文档中所有的相册
$('#pins li a').children().each((index, item) => {
  let album = {
    name: item.attribs.alt, // 相册名称
    url: item.parent.attribs.href // 相册地址
  }
  list.push(album)
})

fs.createWriteStream: 保存图片到本地

await axios({
  method: 'get',
  url: imageSrc,
  responseType: 'stream',
  headers
}).then(function(response) {
  response.data.pipe(fs.createWriteStream(fileName))
})

爬取结果截图

图片描述

说明

此爬虫仅用于个人学习，如果侵权，即刻删除！

Node 批量抓取并下载某站点的图片

启动项目

技术点

爬取结果截图

说明

我就呵呵一笑

引用和评论

五分钟掌握 for...in 和 for...of 区别

Koa+Typescript起手式(空环境) 不用每次玩node都要搭环境了！

解决windows下安装electron 8.0.0 在node install.js卡住的问题

Nest.js中文文档上线啦！(最新V11版本)

7天撸完KTV点歌系统,含后台管理系统(完整版)

Node.js使用puppeteerjs提取网页中的视频地址

Taro 源码揭秘：4. 每次 npm run dev:weapp 开发小程序，build 编译打包是如何实现的？