我一直在做研究,到目前为止我发现了我将计划使用它的 scrapy 的 python 包,现在我试图找出使用 scrapy 构建一个爬虫的好方法来爬取无限滚动的网站。在四处挖掘之后,我发现有一个包调用 selenium 并且它有 python 模块。我有一种感觉,有人已经使用 Scrapy 和 Selenium 通过无限滚动来抓取网站。如果有人可以指出一个例子,那就太好了。
原文由 add-semi-colons 发布,翻译遵循 CC BY-SA 4.0 许可协议
我一直在做研究,到目前为止我发现了我将计划使用它的 scrapy 的 python 包,现在我试图找出使用 scrapy 构建一个爬虫的好方法来爬取无限滚动的网站。在四处挖掘之后,我发现有一个包调用 selenium 并且它有 python 模块。我有一种感觉,有人已经使用 Scrapy 和 Selenium 通过无限滚动来抓取网站。如果有人可以指出一个例子,那就太好了。
原文由 add-semi-colons 发布,翻译遵循 CC BY-SA 4.0 许可协议
2 回答5.1k 阅读✓ 已解决
2 回答1.1k 阅读✓ 已解决
4 回答987 阅读✓ 已解决
3 回答1.1k 阅读✓ 已解决
3 回答1.2k 阅读✓ 已解决
1 回答1.7k 阅读✓ 已解决
1 回答1.2k 阅读✓ 已解决
您可以使用 selenium 废弃无限滚动的网站,例如 twitter 或 facebook。
第 1 步:使用 pip 安装 Selenium
第 2 步:使用下面的代码实现自动无限滚动并提取源代码
for 循环允许您解析无限滚动并发布您可以提取加载数据的内容。
第 3 步:如果需要,打印数据。