在NodeJS里使用http.get方法为什么无法获取到这一特定网页的内容?

在NodeJS里使用http.get方法,平时获取各种网页返回的内容都很正常,最近碰到“上观新闻”的站点很奇怪,例如:

栏目列表页 http://web.shobserver.com/new...
详情页 http://web.shobserver.com/new...

通过http.get方法返回的response是空白,也没有错误提示,不知道该站点有什么特殊之处?

代码如下:

http.get(url,function(res){
    var html = '';
    res.setEncoding('utf-8');
    res.on('data',function(chunk){
        html += chunk;
    });
    res.on('end',function(){
        //解析html
    });
});
阅读 3.6k
2 个回答

这种问题很常见,在请求的 headers 里加上 User-Agent 模拟正常的浏览器就行了。
原生http比较难用,我就用 request 示例:

var request = require("request");

var options = { 
    method: 'GET',
    url: 'http://web.shobserver.com/news/sublist',
    qs: { section: '33' },
    headers: { 
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36'
    } 
};

request(options, function (error, response, body) {
  if (error) console.log(error);

  console.log(body);
});

设置User-Agent即可

var http=require("http");
var req=http.get({
    hostname: 'web.shobserver.com',
    port: 80,
    path: '/news/sublist?section=33',
    method: 'GET',
    headers:{
        'User-Agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
    }
},function(res){
    var html = '';
    res.setEncoding('utf-8');
    

    res.on('data',function(chunk){
        html += chunk;
    });
    res.on('end',function(){
        //解析html
        console.log(html);
    });
});
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题