如何编写一个简易的node爬虫获取任意网址的title呢？

方法的参数为url 然后返回值为 title。

如：

function getTitle(url){
 .......
 return title
}
getTitle('http://www.baidu.com')  

得到 "百度"

getTIttle('http://www.126.com') 

得到 "网易邮箱"

如下图，如何写一个方法获取任意网址的title呢？

javascript node.js 前端工程师

阅读 5.7k

7 个回答

得票最新

Cyber_Cynic

2.3k1924

发布于
2018-02-26

纯前端使用ajax或者iframe都会存在跨域问题。
需要服务端进行请求指定地址，获取到地址对应的页面，然后提取出title标签中内容。

tgxh

41021521

发布于
2018-02-26

使用superagent+cheerio

superagent.get(url)
    .end((err, res) => {
        const $ = cheerio.load(res.text)
        console.log($('title').text())
    })

李毅

5k1219

发布于
2018-02-26

// npm install request
var request = require('request');
request('https://www.taobao.com', function (error, response, body) {
    var array = /<title>(.*)<\/title>/gi.exec(body);
    if (array != null) {
        console.log('title:', array[1]);
    }
});