var express = require('express');
var cheerio = require('cheerio');
var superagent = require('superagent');
var app = express();
app.get('/', function (req, res, next) {
// 用 superagent 去抓取 https://cnodejs.org/ 的内容
superagent.get('https://cnodejs.org/')
.end(function (err, sres) {
// 常规的错误处理
if (err) {
return next(err);
}
// sres.text 里面存储着网页的 html 内容,将它传给 cheerio.load 之后
// 就可以得到一个实现了 jquery 接口的变量,我们习惯性地将它命名为 `$`
// 剩下就都是 jquery 的内容了
var $ = cheerio.load(sres.text);
var items = [];
$('#topic_list .topic_title').each(function (idx, element) {
var $element = $(element);
console.log($element)
items.push({
title: $element.attr('title'),
href: $element.attr('href')
});
});
res.send(items);
});
});
app.listen(3000, function(req, res) {
console.log('app is running at port 3000');
});
这是一个node.js写的爬虫,里面的这两句代码
var $ = cheerio.load(sres.text) $('#topic_list .topic_title').each ...
这两句代码无法理解,
第一行代码:sres.text
是网页的内容,用 cheerio 去读取它获取整个网页内容,再把他赋值给 $,应该没问题。
关键第二行:$('#topic_list .topic_title')
这个不就成了cheerio.load(sres.text)('#topic_list .topic_title')
吗?我也没有引入 jquery 的模块,也不该是jq的语法呀?
但是这行代码可以做到选择网页里的类再去遍历它,和 jq 的语法一模一样,可是这里的 $ 明明是cheerio.load的,我都被搞糊涂了。
cheerio
:Fast, flexible & lean implementation of core jQuery designed specifically for the server.