求教：怎样解决Jsoup翻页问题？

请教一个问题哈：

Jsoup官方文档里，重点讲了怎么解析网页，但没很好的讲解怎么download这个问题。
载入一个网页，就这么干巴巴一句：

Document doc = Jsoup.connect("http://example.com/").get();

更别没有提到翻页、判断是否重复爬去等问题。

这个是不是说，用其他的爬虫，比如crawler4j或者HttpClient，先爬取网页，然后再使用Jsoup来解析？

还是说Jsoup能强大到先爬取再解析？

还有，对于这个问题，能否推荐几个英文关键词，我去google上搜一下？
水平不高，连关键词是什么都不知道，请见谅。

阅读 4.7k

2 个回答

得票最新

✓ 已被采纳

JSoup帮你发送http请求，获取返回的HTML内容，保存到Document对象中，再提供一套类jQuery的API查询解析HTML文档内的信息

翻页每个站点有特定的URL请求，或JSON、JSONP请求，这个需要你自己组织处理

你可以使用HttpClient等爬虫类库，获取HTML原始内容，构建成JSOUP的Document对象，让JSOUP解析出内容，然后保存到你期望的持久化方案中（本地文件，数据库，内存...）

是否爬虫了，是否需要通过代理去爬（如何反爬）不是JSOUP应该干的活，就像HttpClient负责爬取内容，但不会解析内容一样....

爬虫一般会先爬一个种子页面，里面有所有页面url的规则，通过这个种子再去爬其他页面。

撰写回答

推荐问题

相似问题

找不到问题？创建新问题