Java网络爬虫有哪些比较好的技术，技术方法或者技术框架

MrGG

254103954

发布于
2016-12-07

在网络爬虫中使用Java语言，比较好操作的。这样的框架各位有用过的，或者是看别人用过相对比较好的技术方案，希望各位分享给我

java 网络爬虫网页爬虫 java-web java-ee

阅读 6.6k

5 个回答

中华雪碧

自己做简单的网站爬虫。可以用这些：
请求：HttpClient
解析HTML：Jsoup
模拟浏览器：htmlunit

成熟的爬虫框架：
1.nutch
地址：apache/nutch · GitHub
apache下的开源爬虫程序，功能丰富，文档完整。有数据抓取解析以及存储的模块。

2.Heritrix
地址：internetarchive/heritrix3 · GitHub
很早就有了，经历过很多次更新，使用的人比较多，功能齐全，文档完整，网上的资料也多。有自己的web管理控制台，包含了一个HTTP 服务器。操作者可以通过选择Crawler命令来操作控制台。

3.crawler4j
地址：yasserg/crawler4j · GitHub
因为只拥有爬虫的核心功能，所以上手极为简单，几分钟就可以写一个多线程爬虫程序。

vitoling

524

发布于
2016-12-07

简单的逆向的话可以用直接用Apache的HttpClient模拟请求，需要登录的要自己维护cookie和session，然后调用api用jackson框架将返回的json数据映射到对象。如果是解析html页面的话，可以用webmagic框架，功能丰富，但是没有登录模块。

于海涛

发布于
2016-12-08

webmagic

rockswang

1.4k41023

发布于
2016-12-08

简单的用curl都行，复杂的当然是phantomjs了，脚本化的浏览器环境，可以直接和网页里的js交互

layson

644

发布于
2016-12-08

WebCollector传送门

个人觉得这个是一个不错的Java框架，简单好用

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

Java网络爬虫有哪些比较好的技术，技术方法或者技术框架

你尚未登录，登录后可以

Spring中的两个疑惑?

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

java开发发问URL匹配问题？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

Spring Boot 3.2.2 连接 RocketMQ 5.1.2 报错如何解决？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

idea 中有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性有什么好的办法吗?

Java网络爬虫有哪些比较好的技术，技术方法或者技术框架

你尚未登录，登录后可以

Spring中的两个疑惑?

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

java开发发问URL匹配问题？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

Spring Boot 3.2.2 连接 RocketMQ 5.1.2 报错如何解决？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

idea 中 有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性 有什么好的办法吗?

idea 中有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性有什么好的办法吗?