我找不到任何好的基于 Java 的 Web 抓取 API。我需要抓取的站点也不提供任何 API;我想使用一些 pageID
遍历所有网页,并在它们的 DOM 树中提取 HTML 标题/其他内容。
除了网络抓取之外还有其他方法吗?
原文由 NoneType 发布,翻译遵循 CC BY-SA 4.0 许可协议
我找不到任何好的基于 Java 的 Web 抓取 API。我需要抓取的站点也不提供任何 API;我想使用一些 pageID
遍历所有网页,并在它们的 DOM 树中提取 HTML 标题/其他内容。
除了网络抓取之外还有其他方法吗?
原文由 NoneType 发布,翻译遵循 CC BY-SA 4.0 许可协议
8 回答6.6k 阅读
4 回答716 阅读✓ 已解决
2 回答3.4k 阅读
3 回答1.9k 阅读✓ 已解决
1 回答2.2k 阅读✓ 已解决
1 回答2.1k 阅读✓ 已解决
1 回答974 阅读✓ 已解决
jsoup
提取标题并不困难,而且您有很多选择,请在 Stack Overflow 上搜索“ _Java HTML 解析器_”。其中之一是 Jsoup 。
如果您知道页面结构,则可以使用 DOM 导航页面,请参阅 http://jsoup.org/cookbook/extracting-data/dom-navigation
这是一个很好的库,我在最近的项目中使用过它。