我准备抓用nodejs抓取下面这个网站的所有新闻, 按照一般的思路,是首先取得每页新闻的URL,然后取得每个新闻的URL
按照使用request把每个网址的内容取下来就OK了.
但是下面的这个网址的所有分页信息, 还有每个新闻点击进去URL都没有任何变化, 貌似都是在后台通过js实现的.
用chrome的F12的newwork的tab也查看不到有什么请求,有哪位大神能指导一下我怎么来抓取吗?
我准备抓用nodejs抓取下面这个网站的所有新闻, 按照一般的思路,是首先取得每页新闻的URL,然后取得每个新闻的URL
按照使用request把每个网址的内容取下来就OK了.
但是下面的这个网址的所有分页信息, 还有每个新闻点击进去URL都没有任何变化, 貌似都是在后台通过js实现的.
用chrome的F12的newwork的tab也查看不到有什么请求,有哪位大神能指导一下我怎么来抓取吗?
10 回答11.1k 阅读
6 回答3k 阅读
5 回答4.8k 阅读✓ 已解决
4 回答3k 阅读✓ 已解决
2 回答2.6k 阅读✓ 已解决
4 回答2.4k 阅读✓ 已解决
3 回答2.3k 阅读✓ 已解决
1.从上一篇与下一篇的地方可以看到,click绑定的函数:boardView(1);
2.通过boadrview在页面中找到对应的函数:
.........
3.看到数据来自于list这个变量,再寻找list
4.在1739行看到:
5.调用了一个构造函数:jsList()找到相应的代码在这里:http://www.samsungsem.com/js/...
6 看回第2步的代码:list.artTitles-->这些数据是通过jsList的cmsInit方法设置的,而cmsInit中:
...
的数据来自第四个参数data
7.再看第4步的传的data是new data()
于是,我们找到data这个函数定义的地方。
往上找,找到了:<script src="/global/news/data.js.jsp"></script>
8.打开后看一下:http://www.samsungsem.com/glo...
好奇怪的感觉,怎么样式那么奇怪?
再右键查看源代码:
view-source:http://www.samsungsem.com/glo...
可以看到data函数是在这里定义的,而你看到的数据也在这个页面里。