在取头条文章的时候遇到问题
各种获取页面的操作获取到的文章内容咋不一样呢
我用curl爬保存dom到文件,用PHPSPIDER爬保存dom到文件,直接在谷歌浏览器页面右键审核元素看到的dom,右键查看源码看到的dom,这些dom竟然都不一样,浏览器的好理解,应该是打开后js运行dom也发生变化。
求指导,我所做的是爬取用户指定链接的头条文章
在取头条文章的时候遇到问题
各种获取页面的操作获取到的文章内容咋不一样呢
我用curl爬保存dom到文件,用PHPSPIDER爬保存dom到文件,直接在谷歌浏览器页面右键审核元素看到的dom,右键查看源码看到的dom,这些dom竟然都不一样,浏览器的好理解,应该是打开后js运行dom也发生变化。
求指导,我所做的是爬取用户指定链接的头条文章
2 回答1.5k 阅读✓ 已解决
1 回答1.2k 阅读✓ 已解决
2 回答895 阅读✓ 已解决
1 回答1.1k 阅读✓ 已解决
2 回答957 阅读
1 回答934 阅读
1 回答857 阅读
应该是通过 js 动态生成的,要拿内容的话,直接解析js脚本里面的字符串.

如果要基于 dom 爬取的话,可以用谷歌的
Headless Chromium
Headless Chromium