请教下关于爬虫的选择

新手上路,请多包涵

现在有个需求需要抓取一个网站的文章,包括js,css.html所有文件,然后保存下来变成自己的文章,文章是通过ajax异步加载的。所以想请问下,这种需求,采用哪种方式实现比较好一点,scrapy splash和puppeteer好像原理差不多。除了上面两种还有没其他的框架适合我现在的这个需求的,语言就在node和ptyhon中选,求指教。

阅读 2.8k
5 个回答

selenium大法好,虽然效率低

文章既然是通过ajax获取的,你为什么不直接用这个接口呢?

新手上路,请多包涵

最后还是选了puppeteer

鄙人认为,scrapy和bs4这种复古组合也不会不适用

通过ajax加载的动态网页,推荐使用selenium

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题