爬取文章遇到的问题

搞搞的传奇

发布于
2018-11-16

在取头条文章的时候遇到问题
各种获取页面的操作获取到的文章内容咋不一样呢

我用curl爬保存dom到文件，用PHPSPIDER爬保存dom到文件，直接在谷歌浏览器页面右键审核元素看到的dom，右键查看源码看到的dom，这些dom竟然都不一样，浏览器的好理解，应该是打开后js运行dom也发生变化。

求指导，我所做的是爬取用户指定链接的头条文章

阅读 1.7k

1 个回答

发布于
2018-11-16

✓ 已被采纳

应该是通过 js 动态生成的,要拿内容的话,直接解析js脚本里面的字符串.
图片描述

如果要基于 dom 爬取的话,可以用谷歌的 Headless Chromium

Headless Chromium

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题