爬取文章遇到的问题

在取头条文章的时候遇到问题
各种获取页面的操作获取到的文章内容咋不一样呢

我用curl爬保存dom到文件,用PHPSPIDER爬保存dom到文件,直接在谷歌浏览器页面右键审核元素看到的dom,右键查看源码看到的dom,这些dom竟然都不一样,浏览器的好理解,应该是打开后js运行dom也发生变化。

求指导,我所做的是爬取用户指定链接的头条文章

阅读 1.7k
1 个回答

应该是通过 js 动态生成的,要拿内容的话,直接解析js脚本里面的字符串.
图片描述

如果要基于 dom 爬取的话,可以用谷歌的 Headless Chromium

Headless Chromium

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题