node爬虫爬下来的图片本地无法打开此文件?

新手上路,请多包涵

代码,图片能下载下来,但是打不开,求大神们帮助
https://data.countryflags.com...
第一个页面找到下载的网址。从第二个页面找到图片链接 下载

var http = require('https');
var fs = require('fs');
var cheerio = require('cheerio');
var request = require('request');
var i = 0;
var q = 0;
var url = "https://data.countryflags.com/products/en/category/2996352/tiles/population-desc.html"; 
//初始url 

function fetchPage(x) {     //封装了一层函数
  startRequest(x); 
}
// 第一个页面  爬取第二个页面网址
function startRequest(x) {
     //采用http模块向服务器发起一次get请求      
    http.get(x, function (res) {     
        var html = '';        //用来存储请求网页的整个html内容
        var titles = [];        
        res.setEncoding('utf-8'); //防止中文乱码
        //监听data事件,每次取一块数据
        res.on('data', function (chunk) {   
            html += chunk;
            // console.log(html)
        });
        //监听end事件,如果整个网页内容的html都获取完毕,就执行回调函数
        res.on('end', function () {
          var $ = cheerio.load(html); //采用cheerio模块解析html
          var link = 'https:' + $("div.thumbnail a.clearfix").attr('href')
          secondRequest(link)
        });

    }).on('error', function (err) {
        console.log(err);
    });

}
// 第二个页面  爬取图片 和 名称
function secondRequest(link){
  http.get(link, function (res) {     
    var html = '';        //用来存储请求网页的整个html内容
    var titles = [];        
    res.setEncoding('utf-8'); //防止中文乱码
    //监听data事件,每次取一块数据
    res.on('data', function (chunk) {   
        html += chunk;
        // console.log(html)
    });

    //监听end事件,如果整个网页内容的html都获取完毕,就执行回调函数
    res.on('end', function () {
      var $ = cheerio.load(html); //采用cheerio模块解析html
      var news_item = {
        //获取文章的标题
        title: $('div.panel-heading h3.panel-title').eq(0).text().trim(),   
        //获取图片url  爬取small png
        link:  'https:' + $("table.table-btn-spacing tbody tr").eq(1).children('td').eq(0).find('a').attr('href'),
        //i是用来判断获取了多少篇文章
        q: q = q + 1,     

      };
      savedImg($,news_item);    //存储每篇文章的图片及图片标题
    });

  }).on('error', function (err) {
      console.log(err);
  });

}


//该函数的作用:在本地存储所爬取到的图片资源
function savedImg($,news_item) {
  var img_filename = news_item.title + '.png';
  var img_src = news_item.link; //获取图片的url
  var options = {
    url: img_src,
    headers: {
      'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
    }
  };
  //采用request模块,向服务器发起一次请求,获取图片资源
  request.head(options,function(err,res,body){
      if(err){
          console.log(err);
      }
  });
  request(options).pipe(fs.createWriteStream('./image/'+ img_filename));     //通过流的方式,把图片写到本地/image目录下,并用新闻的标题和图片的标题作为图片的名称。
  // request('https://cdn.countryflags.com/download/yemen/flag-png-small.png').pipe(fs.createWriteStream('./image/'+ img_filename)); 

}

fetchPage(url);      //主程序开始运行
阅读 3.7k
1 个回答
// request('https://cdn.countryflags.com/...').pipe(fs.createWriteStream('./image/'+ img_filename));

没看出图片存储有什么问题,注释代码能存储图片并打开吧?
到时看到防止中文乱码并不能防止,之所以乱码是在dataevent中使用字符串相加,而表示1个中文的buffer可能被截断。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题