NodeJs实现爬虫功能

2017年01月20日Web后端

我们可以经常见到一些后端语言的爬虫,既然Node已经使JS脱离浏览器了,何不用Node来写个爬虫呢?

实现爬取数据功能

要实现简单的爬虫,我们需要引入node的http模块,使用对应的get方法。我们以爬取百度首页为例子,实现如下:

var http = require('http');

var req = http.get('http://www.baidu.com', function(res) {
    var html = '';
    res.on('data', function(chunk) {
        html += chunk;
    });
    res.on('end', function() {
        console.log(html);
    });
});

此时,用node命令运行js文件,我们可以在命令提示符中看到一连串的代码,其实这是百度首页的代码。这样的话,一个很简单的爬取数据的功能就实现了。

解析数据

我们虽然可以爬取到数据了,但是由于各种有用的、无用的数据杂合在一起,很不容易分析。所以我们现在要解析数据,活得我们真正感兴趣的内容。

首先,我们通过npm安装cheerio(cheerio是node的抓取页面的模块,由于他包括了 jQuery 核心的子集,用法十分的简单,可以像jQuery一样操作DOM),

npm install cheerio --save

仅修改end监听函数中的内容,

res.on('end', function() {
    $ = cheerio.load(html);   // 将HTML DOM传给cheerio
    console.log($('#lg > img').attr('src'));
});

2017-01-18_205557

这样的话,我们可以得到百度首页上,id是lg、img子元素的src路径。实际上,这是百度首页的log的路径。是不是发现,cheerio很容易使用呢。

下载资源

我们可以从爬取的数据中解析出img的路径,那么下载就不成问题了吧?为了进行写操作,我们引入了fs模块。

var http = require('http');
var fs = require("fs");
var cheerio = require('cheerio');

var req = http.get('http://www.baidu.com', function(res) {
    var html = '';
    res.on('data', function(chunk) {
        html += chunk;
    });
    res.on('end', function() {
        $ = cheerio.load(html);
        var oImg = $('img'),
            length = oImg.length;
        for (var i = 0; i < length; ++i) {
            getPic(oImg.eq(i).attr('src'), 'pic/' + i + '.png');
            console.log(oImg.eq(i).attr('src'));  // 打印img路径,注1.
        }
    });
});

// 下载图片函数
function getPic(url, local) {
    http.get(url, function(res) {
        var img = '';
        res.setEncoding("binary"); // 必须设置response的编码为binary,否则下载下来的图片会打不开
        res.on('data', function(chunk) {
            img += chunk;
        });
        res.on('end', function() {
            fs.writeFile(local, img, 'binary', function(err) { // 写操作函数
                if (err) {
                    console.log('dowmload error!');
                } else {
                    console.log('sucess!');
                }
            });
        });
    });
}

注1:我们会发现有些图片实际下载下来是空白的,可以直接看命令提示符中的打印的路径信息,不正常图片的src路径是有问题的,我们可以特殊处理下。

其实下载图片的函数不过是另外的get请求函数而已,只是这次直接请求的是图片资源而已。这样,我们就可以下载到百度首页下的所有图片资源了。

其他

在爬取异步加载页面(页面由js组合形成),数据逻辑复杂的页面时,可以考虑使用chrome提供的puppeteer库。