【爬虫】使用java爬取mm131美女图片

Ason

阅读 1 分钟

2

前言

最近无意间在知乎专栏看到有人使用python爬取了mm131的图片。想着自己也有过爬虫的开发经验(抱着学习的态度)，故使用java也来写个小爬虫，爬虫框架用的是webmagic，传送门：https://github.com/code4craft/webmagic

实现

整个爬虫项目如下图，极其精简，其中主要实现类是Mm131Spider

启动Mm131Spider后，图片会下载到指定的文件夹，如下图：

其中每个主类别(如：/chemo)文件夹有一个urlCheck.txt的文件，主要用于保存已经爬取的url，下一次启动的时候则不会再去爬取该url，所以任何时候都可以停止/启动爬取，不会导致爬取重复的问题

该项目已push到github，感兴趣的朋友可以自行查看源码，传送门：https://github.com/5-Ason/spider-mm131

阅读 26.3k更新于 2018-07-19

Ason

67 声望9 粉丝

不断挖坑，然后不断填坑。

« 上一篇

【技术杂谈】springcloud微服务之数据操作独立模块化

下一篇 »

【一文系列】一文了解java常用集合类(含源码)

引用和评论

推荐阅读

【一文系列】一文掌握mysql索引底层原理

Ason赞 2阅读 2.9k

Java8的新特性

codecraft赞 36阅读 31.8k评论 1

Java11的新特性

codecraft赞 28阅读 22.6k评论 3

Java5的新特性

codecraft赞 13阅读 26.8k

Java9的新特性

codecraft赞 20阅读 18.8k

Java13的新特性

codecraft赞 17阅读 13.8k

Java7的新特性

codecraft赞 10阅读 21.4k

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。