关于微博的爬虫问题！！？

TuringMachine

433116067

发布于
2015-11-15

不知道各位爬虫过微博的页面么？
今天我试了试，获取到的html内容居然不是我想要的！！
全是js内容，
我猜测微博是实用js文件加载内容的。

那么问题来了，
我要怎么获取js加载后的页面内容呢？就是body里面的标签内容。

我使用的是nodejs，superangert、cheerio、express。
望大神赐教，小弟感恩不尽。

网页爬虫 node.js

阅读 5.3k

3 个回答

得票最新

rccoder

1.2k146

发布于
2015-11-16

✓ 已被采纳

微博都是动态加载的，难度比较大

可以试试WAP版本的 http://weibo.cn/

kikong

19.1k31320

发布于
2015-11-16

1）用正常的URL请求取访问，获取返回的内容存在本地发文件后，check下和最终的HTML文件内容有那些区别
2）你用下chrome的开发工具或firebug等工具查看页面的网络请求，查找其中的有关的http请求，特别是那些JSONP的请求
3）有些内容是要LAZY加载的，还需要你进一步观察~~~~
4）如果你对实时性要求不高的，可以考虑用phantomJS或electron等框架，让HTML渲染引擎完全渲染后，在抓取内容

总之，现在页面越来越难抓了~~~，
另外爬虫，要用到express么？superangert用来做代理？

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

关于微博的爬虫问题！！？

你尚未登录，登录后可以

怎么用Vue3和Element-Plus及手动写组件模仿一个网站的全站内容，要模仿的很像？

yarn安装包后报错，怎么解决？

sequelize 事务错误不回滚，打印回滚了，但是第一条还是更新了？

nvm安装node12失败怎么解决？

如何在X64系统上安装32位node12版本时报错如何解决？

如何处理 npm 包依赖的依赖？

基于npm workspaces的monorepo 怎么只安装指定workspace和父级的依赖？