NodeJs实现爬虫功能

2017年01月20日Web后端0

我们可以经常见到一些后端语言的爬虫，既然Node已经使JS脱离浏览器了，何不用Node来写个爬虫呢？

实现爬取数据功能

要实现简单的爬虫，我们需要引入node的http模块，使用对应的get方法。我们以爬取百度首页为例子，实现如下：

var http = require('http');

var req = http.get('http://www.baidu.com', function(res) {
    var html = '';
    res.on('data', function(chunk) {
        html += chunk;
    });
    res.on('end', function() {
        console.log(html);
    });
});

此时，用node命令运行js文件，我们可以在命令提示符中看到一连串的代码，其实这是百度首页的代码。这样的话，一个很简单的爬取数据的功能就实现了。

解析数据

我们虽然可以爬取到数据了，但是由于各种有用的、无用的数据杂合在一起，很不容易分析。所以我们现在要解析数据，活得我们真正感兴趣的内容。

首先，我们通过npm安装cheerio（cheerio是node的抓取页面的模块，由于他包括了 jQuery 核心的子集，用法十分的简单，可以像jQuery一样操作DOM），

npm install cheerio --save

仅修改end监听函数中的内容，

res.on('end', function() {
    $ = cheerio.load(html);   // 将HTML DOM传给cheerio
    console.log($('#lg > img').attr('src'));
});

2017-01-18_205557

这样的话，我们可以得到百度首页上，id是lg、img子元素的src路径。实际上，这是百度首页的log的路径。是不是发现，cheerio很容易使用呢。

下载资源

我们可以从爬取的数据中解析出img的路径，那么下载就不成问题了吧？为了进行写操作，我们引入了fs模块。

var http = require('http');
var fs = require("fs");
var cheerio = require('cheerio');

var req = http.get('http://www.baidu.com', function(res) {
    var html = '';
    res.on('data', function(chunk) {
        html += chunk;
    });
    res.on('end', function() {
        $ = cheerio.load(html);
        var oImg = $('img'),
            length = oImg.length;
        for (var i = 0; i < length; ++i) {
            getPic(oImg.eq(i).attr('src'), 'pic/' + i + '.png');
            console.log(oImg.eq(i).attr('src'));  // 打印img路径，注1.
        }
    });
});

// 下载图片函数
function getPic(url, local) {
    http.get(url, function(res) {
        var img = '';
        res.setEncoding("binary"); // 必须设置response的编码为binary，否则下载下来的图片会打不开
        res.on('data', function(chunk) {
            img += chunk;
        });
        res.on('end', function() {
            fs.writeFile(local, img, 'binary', function(err) { // 写操作函数
                if (err) {
                    console.log('dowmload error!');
                } else {
                    console.log('sucess!');
                }
            });
        });
    });
}

注1：我们会发现有些图片实际下载下来是空白的，可以直接看命令提示符中的打印的路径信息，不正常图片的src路径是有问题的，我们可以特殊处理下。

其实下载图片的函数不过是另外的get请求函数而已，只是这次直接请求的是图片资源而已。这样，我们就可以下载到百度首页下的所有图片资源了。

其他

在爬取异步加载页面(页面由js组合形成)，数据逻辑复杂的页面时，可以考虑使用chrome提供的puppeteer库。

Node