node 爬虫问题

使用superagent请求某网页,网页不是ssr页面数据都是走接口获得(我知道正常来讲直接爬接口就好,但是我有个特别需求非要这样- -),
我希望通过cheerio分析页面形式获得数据,使用cheerio load请求到的html,但有时load完的html上会没有数据,请问这是怎么回事?

阅读 2.3k
2 个回答

原来是被网站反爬虫了

你都说了,网页不是server side render的。大概率是浏览器里面用js 继续拉取资源,动态渲染的。

这种情况下,直接看chrome的网络,看看都请求了什么资源,依次排查,找到你想要的,然后针对那个url抓取核心数据。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题