<a target="_blank" href="https://www.huoban.com/news/tags-382.html"style="font-weight:bold;">手把手</a>教你如何用Crawlab构建技术文章聚合平台(一)-伙伴云

手把手教你如何用Crawlab构建技术文章聚合平台(一)

网友投稿 1070 2025-04-02

背景

说到爬虫，大多数程序员想到的是scrapy这样受人欢迎的框架。scrapy的确不错，而且有很强大的生态圈，有gerapy等优秀的可视化界面。但是，它还是有一些不能做到的事情，例如在页面上做翻页点击操作、移动端抓取等等。对于这些新的需求，可以用Selenium、Puppeteer、Appium这些自动化测试框架绕开繁琐的动态内容，直接模拟用户操作进行抓取。可惜的是，这些框架不是专门的爬虫框架，不能对爬虫进行集中管理，因此对于一个多达数十个爬虫的大型项目来说有些棘手。

Crawlab是一个基于Celery的分布式通用爬虫管理平台，擅长将不同编程语言编写的爬虫整合在一处，方便监控和管理。Crawlab有精美的可视化界面，能对多个爬虫进行运行和管理。任务调度引擎是本身支持分布式架构的Celery，因此Crawlab可以天然集成分布式爬虫。有一些朋友认为Crawlab只是一个任务调度引擎，其实这样认为并不完全正确。Crawlab是类似Gerapy这样的专注于爬虫的管理平台。

本文将介绍如何使用Crawlab和Puppeteer抓取主流的技术博客文章，然后用Flask+Vue搭建一个小型的技术文章聚合平台。

Crawlab

在前一篇文章《分布式通用爬虫管理平台Crawlab》已介绍了Crawlab的架构以及安装使用，这里快速介绍一下如何安装、运行、使用Crawlab。

安装

到Crawlab的Github Repo用克隆一份到本地。

git clone https://github.com/tikazyq/crawlab

安装相应的依赖包和库。

cd crawlab

# 安装python依赖

pip install -r crawlab/requirements

# 安装前端依赖

cd frontend

npm install

安装mongodb和redis-server。Crawlab将用MongoDB作为结果集以及运行操作的储存方式，Redis作为Celery的任务队列，因此需要安装这两个数据库。

运行

在运行之前需要对Crawlab进行一些配置，配置文件为config.py。

# project variables

PROJECT_SOURCE_FILE_FOLDER = '/Users/yeqing/projects/crawlab/spiders' # 爬虫源码根目录

PROJECT_DEPLOY_FILE_FOLDER = '/var/crawlab' # 爬虫部署根目录

PROJECT_LOGS_FOLDER = '/var/logs/crawlab' # 日志目录

PROJECT_TMP_FOLDER = '/tmp' # 临时文件目录

# celery variables

BROKER_URL = 'redis://192.168.99.100:6379/0' # 中间者URL，连接redis

CELERY_RESULT_BACKEND = 'mongodb://192.168.99.100:27017/' # CELERY后台URL

CELERY_MONGODB_BACKEND_SETTINGS = {

'database': 'crawlab_test',

'taskmeta_collection': 'tasks_celery',

}

CELERY_TIMEZONE = 'Asia/Shanghai'

CELERY_ENABLE_UTC = True

# flower variables

FLOWER_API_ENDPOINT = 'http://localhost:5555/api' # Flower服务地址

# database variables

MONGO_HOST = '192.168.99.100'

MONGO_PORT = 27017

MONGO_DB = 'crawlab_test'

# flask variables

DEBUG = True

FLASK_HOST = '127.0.0.1'

FLASK_PORT = 8000

启动后端API，也就是一个Flask App，可以直接启动，或者用gunicorn代替。

cd ../crawlab

python app.py

启动Flower服务（抱歉目前集成Flower到App服务中，必须单独启动来获取节点信息，后面的版本不需要这个操作）。

python ./bin/run_flower.py

启动本地Worker。在其他节点中如果想只是想执行任务的话，只需要启动这一个服务就可以了。

python ./bin/run_worker.py

启动前端服务器。

cd ../frontend

npm run serve

使用

首页Home中可以看到总任务数、总爬虫数、在线节点数和总部署数，以及过去30天的任务运行数量。

点击侧边栏的Spiders或者上方到Spiders数，可以进入到爬虫列表页。

这些是爬虫源码根目录PROJECT_SOURCE_FILE_FOLDER下的爬虫。Crawlab会自动扫描该目录下的子目录，将子目录看作一个爬虫。Action列下有一些操作选项，点击部署Deploy按钮将爬虫部署到所有在线节点中。部署成功后，点击运行Run按钮，触发抓取任务。这时，任务应该已经在执行了。点击侧边栏的Tasks到任务列表，可以看到已经调度过的爬虫任务。

基本使用就是这些，但是Crawlab还能做到更多，大家可以进一步探索，详情请见Github。

Puppeteer

Puppeteer是谷歌开源的基于Chromium和NodeJS的自动化测试工具，可以很方便的让程序模拟用户的操作，对浏览器进行程序化控制。Puppeteer有一些常用操作，例如点击，鼠标移动，滑动，截屏，下载文件等等。另外，Puppeteer很类似Selenium，可以定位浏览器中网页元素，将其数据抓取下来。因此，Puppeteer也成为了新的爬虫利器。

相对于Selenium，Puppeteer是新的开源项目，而且是谷歌开发，可以使用很多新的特性。对于爬虫来说，如果前端知识足够的话，写数据抓取逻辑简直不能再简单。正如其名字一样，我们是在操作木偶人来帮我们抓取数据，是不是很贴切？

掘金上已经有很多关于Puppeteer的教程了（爬虫利器 Puppeteer 实战、Puppeteer 与 Chrome Headless —— 从入门到爬虫），这里只简单介绍一下Puppeteer的安装和使用。

安装

安装很简单，就一行npm install命令，npm会自动下载Chromium并安装，这个时间会比较长。为了让安装好的puppeteer模块能够被所有nodejs爬虫所共享，我们在PROJECT_DEPLOY_FILE_FOLDER目录下安装node的包。

# PROJECT_DEPLOY_FILE_FOLDER变量值

cd /var/crawlab

# 安装puppeteer

npm i puppeteer

# 安装mongodb

npm i mongodb

安装mongodb是为了后续的数据库操作。

使用

以下是Copy/Paste的一段用Puppeteer访问简书然后截屏的代码，非常简洁。

const puppeteer = require('puppeteer');

(async () => {

const browser = await (puppeteer.launch());

const page = await browser.newPage();

await page.goto('https://www.jianshu.com/u/40909ea33e50');

await page.screenshot({

path: 'jianshu.png',

type: 'png',

// quality: 100, 只对jpg有效

fullPage: true,

// 指定区域截图，clip和fullPage两者只能设置一个

// clip: {

// x: 0,

// y: 0,

// width: 1000,

// height: 40

// }

});

browser.close();

})();

关于Puppeteer的常用操作，请移步《我常用的puppeteer爬虫api》。

编写爬虫

啰嗦了这么久，终于到了万众期待的爬虫时间了。Talk is cheap, show me the code！咦？我们不是已经Show了不少代码了么...

由于我们的目标是建立一个技术文章聚合平台，我们需要去各大技术网站抓取文章。资源当然是越多越好。作为展示用，我们将抓取下面几个具有代表性的网站：

掘金

SegmentFault

CSDN

背景

本文将介绍如何使用Crawlab和Puppeteer抓取主流的技术博客文章，然后用Flask+Vue搭建一个小型的技术文章聚合平台。

Crawlab

在前一篇文章《分布式通用爬虫管理平台Crawlab》已介绍了Crawlab的架构以及安装使用，这里快速介绍一下如何安装、运行、使用Crawlab。

到Crawlab的Github Repo用克隆一份到本地。

git clone https://github.com/tikazyq/crawlab

安装相应的依赖包和库。

cd crawlab

# 安装python依赖

pip install -r crawlab/requirements

# 安装前端依赖

cd frontend

npm install

安装mongodb和redis-server。Crawlab将用MongoDB作为结果集以及运行操作的储存方式，Redis作为Celery的任务队列，因此需要安装这两个数据库。

在运行之前需要对Crawlab进行一些配置，配置文件为config.py。

# project variables

PROJECT_SOURCE_FILE_FOLDER = '/Users/yeqing/projects/crawlab/spiders' # 爬虫源码根目录

PROJECT_DEPLOY_FILE_FOLDER = '/var/crawlab' # 爬虫部署根目录

PROJECT_LOGS_FOLDER = '/var/logs/crawlab' # 日志目录

PROJECT_TMP_FOLDER = '/tmp' # 临时文件目录

# celery variables

BROKER_URL = 'redis://192.168.99.100:6379/0' # 中间者URL，连接redis

CELERY_RESULT_BACKEND = 'mongodb://192.168.99.100:27017/' # CELERY后台URL

CELERY_MONGODB_BACKEND_SETTINGS = {

'database': 'crawlab_test',

'taskmeta_collection': 'tasks_celery',

}

CELERY_TIMEZONE = 'Asia/Shanghai'

CELERY_ENABLE_UTC = True

# flower variables

FLOWER_API_ENDPOINT = 'http://localhost:5555/api' # Flower服务地址

# database variables

MONGO_HOST = '192.168.99.100'

MONGO_PORT = 27017

MONGO_DB = 'crawlab_test'

# flask variables

DEBUG = True

FLASK_HOST = '127.0.0.1'

FLASK_PORT = 8000

启动后端API，也就是一个Flask App，可以直接启动，或者用gunicorn代替。

cd ../crawlab

python app.py

启动Flower服务（抱歉目前集成Flower到App服务中，必须单独启动来获取节点信息，后面的版本不需要这个操作）。

python ./bin/run_flower.py

启动本地Worker。在其他节点中如果想只是想执行任务的话，只需要启动这一个服务就可以了。

python ./bin/run_worker.py

启动前端服务器。

cd ../frontend

npm run serve

首页Home中可以看到总任务数、总爬虫数、在线节点数和总部署数，以及过去30天的任务运行数量。

点击侧边栏的Spiders或者上方到Spiders数，可以进入到爬虫列表页。

基本使用就是这些，但是Crawlab还能做到更多，大家可以进一步探索，详情请见Github。

Puppeteer

安装

# PROJECT_DEPLOY_FILE_FOLDER变量值

cd /var/crawlab

# 安装puppeteer

npm i puppeteer

# 安装mongodb

npm i mongodb

安装mongodb是为了后续的数据库操作。

使用

以下是Copy/Paste的一段用Puppeteer访问简书然后截屏的代码，非常简洁。

const puppeteer = require('puppeteer');

(async () => {

const browser = await (puppeteer.launch());

const page = await browser.newPage();

await page.goto('https://www.jianshu.com/u/40909ea33e50');

await page.screenshot({

path: 'jianshu.png',

type: 'png',

// quality: 100, 只对jpg有效

fullPage: true,

// 指定区域截图，clip和fullPage两者只能设置一个

// clip: {

// x: 0,

// y: 0,

// width: 1000,

// height: 40

// }

});

browser.close();

})();

关于Puppeteer的常用操作，请移步《我常用的puppeteer爬虫api》。

编写爬虫

啰嗦了这么久，终于到了万众期待的爬虫时间了。Talk is cheap, show me the code！咦？我们不是已经Show了不少代码了么...

掘金

SegmentFault

CSDN

研究发现这三个网站都是由Ajax获取文章列表，生成动态内容以作为传统的分页替代。这对于Puppeteer来说很容易处理，因为Puppeteer绕开了解析Ajax这一部分，浏览器会自动处理这样的操作和请求，我们只着重关注数据获取就行了。三个网站的抓取策略基本相同，我们以掘金为例着重讲解。

掘金

首先是引入Puppeteer和打开网页。

const puppeteer = require('puppeteer');

const MongoClient = require('mongodb').MongoClient;

(async () => {

// browser

const browser = await (puppeteer.launch({

headless: true

}));

// define start url

const url = 'https://juejin.im';

// start a new page

const page = await browser.newPage();

...

})();

headless设置为true可以让浏览器以headless的方式运行，也就是指浏览器不用在界面中打开，它会在后台运行，用户是看不到浏览器的。browser.newPage()将新生成一个标签页。后面的操作基本就围绕着生成的page来进行。

接下来我们让浏览器导航到start url。

...

// navigate to url

try {

await page.goto(url, {waitUntil: 'domcontentloaded'});

await page.waitFor(2000);

} catch (e) {

console.error(e);

// close browser

browser.close();

// exit code 1 indicating an error happened

code = 1;

process.emit("exit ");

process.reallyExit(code);

return

}

...

这里try catch的操作是为了处理浏览器访问超时的错误。当访问超时时，设置exit code为1表示该任务失败了，这样Crawlab会将该任务状态设置为FAILURE。

然后我们需要下拉页面让浏览器可以读取下一页。

...

// scroll down to fetch more data

for (let i = 0; i < 100; i++) {

console.log('Pressing PageDown...');

await page.keyboard.press('PageDown', 200);

await page.waitFor(100);

}

...

翻页完毕后，就开始抓取数据了。

...

// scrape data

const results = await page.evaluate(() => {

let results = [];

document.querySelectorAll('.entry-list > .item').forEach(el => {

if (!el.querySelector('.title')) return;

results.push({

url: 'https://juejin.com' + el.querySelector('.title').getAttribute('href'),

title: el.querySelector('.title').innerText

});

return results;

});

...

page.evaluate可以在浏览器Console中进行JS操作。这段代码其实可以直接在浏览器Console中直接运行。调试起来是不是方便到爽？前端工程师们，开始欢呼吧！

获取了数据，接下来我们需要将其储存在数据库中。

...

// open database connection

const client = await MongoClient.connect('mongodb://192.168.99.100:27017');

let db = await client.db('crawlab_test');

const colName = process.env.CRAWLAB_COLLECTION || 'results_juejin';

const taskId = process.env.CRAWLAB_TASK_ID;

const col = db.collection(colName);

// save to database

for (let i = 0; i < results.length; i++) {

// de-duplication

const r = await col.findOne({url: results[i]});

if (r) continue;

// assign taskID

results[i].task_id = taskId;

// insert row

await col.insertOne(results[i]);

}

...

这样，我们就将掘金最新的文章数据保存在了数据库中。其中，我们用url字段做了去重处理。CRAWLAB_COLLECTION和CRAWLAB_TASK_ID是Crawlab传过来的环境变量，分别是储存的collection和任务ID。任务ID需要以task_id为键保存起来，这样在Crawlab中就可以将数据与任务关联起来了。

整个爬虫代码如下。

const puppeteer = require('puppeteer');

const MongoClient = require('mongodb').MongoClient;

(async () => {

// browser

const browser = await (puppeteer.launch({

headless: true

}));

// define start url

const url = 'https://juejin.im';

手把手教你如何用Crawlab构建技术文章聚合平台(一)

// start a new page

const page = await browser.newPage();

// navigate to url

try {

await page.goto(url, {waitUntil: 'domcontentloaded'});

await page.waitFor(2000);

} catch (e) {

console.error(e);

// close browser

browser.close();

// exit code 1 indicating an error happened

code = 1;

process.emit("exit ");

process.reallyExit(code);

return

}

// scroll down to fetch more data

for (let i = 0; i < 100; i++) {

console.log('Pressing PageDown...');

await page.keyboard.press('PageDown', 200);

await page.waitFor(100);

}

// scrape data

const results = await page.evaluate(() => {

let results = [];

document.querySelectorAll('.entry-list > .item').forEach(el => {

if (!el.querySelector('.title')) return;

results.push({

url: 'https://juejin.com' + el.querySelector('.title').getAttribute('href'),

title: el.querySelector('.title').innerText

});

return results;

});

// open database connection

const client = await MongoClient.connect('mongodb://192.168.99.100:27017');

let db = await client.db('crawlab_test');

const colName = process.env.CRAWLAB_COLLECTION || 'results_juejin';

const taskId = process.env.CRAWLAB_TASK_ID;

const col = db.collection(colName);

// save to database

for (let i = 0; i < results.length; i++) {

// de-duplication

const r = await col.findOne({url: results[i]});

if (r) continue;

// assign taskID

results[i].task_id = taskId;

// insert row

await col.insertOne(results[i]);

}

console.log(`results.length: ${results.length}`);

// close database connection

client.close();

// shutdown browser

browser.close();

})();

SegmentFault & CSDN

这两个网站的爬虫代码基本与上面的爬虫一样，只是一些参数不一样而已。我们的爬虫项目结构如下。

运行爬虫

在Crawlab中打开Spiders，我们可以看到刚刚编写好的爬虫。

点击各个爬虫的View查看按钮，进入到爬虫详情。

在Execute Command中输入爬虫执行命令。对掘金爬虫来说，是node juejin_spider.js。输入完毕后点击Save保存。然后点击Deploy部署爬虫。最后点击Run运行爬虫。

点击左上角到刷新按钮可以看到刚刚运行的爬虫任务已经在运行了。点击Create Time后可以进入到任务详情。Overview标签中可以看到任务信息，Log标签可以看到日志信息，Results信息中可以看到抓取结果。目前在Crawlab结果列表中还不支持数据导出，但是不久的版本中肯定会将导出功能加入进来。

总结

在这一小节，我们已经能够将Crawlab运行起来，并且能用Puppeteer编写抓取三大网站技术文章的爬虫，并且能够用Crawlab运行爬虫，并且读取抓取后的数据。下一节，我们将用Flask+Vue做一个简单的技术文章聚合网站。能看到这里的都是有耐心的好同学，赞一个。

Github: tikazyq/crawlab

Scrapy Python

手把手教你在华为云编译和使用ClickHouse">手把手教你在华为云编译和使用ClickHouse

1070 2025-04-02

手把手教你搭建 RabbitMQ 集群">手把手教你搭建 RabbitMQ 集群

1070 2025-04-02

第八章：手把手教老婆实现：RocketMQ集群模式（2）-RocketMQ主从-搭建">第八章：手把手教老婆实现：RocketMQ集群模式（2）-RocketMQ主从-搭建

1070 2025-04-02

手把手教你如何用Crawlab构建技术文章聚合平台(一)

手把手教你在华为云编译和使用ClickHouse">手把手教你在华为云编译和使用ClickHouse

手把手教你搭建 RabbitMQ 集群">手把手教你搭建 RabbitMQ 集群

第八章：手把手教老婆实现：RocketMQ集群模式（2）-RocketMQ主从-搭建">第八章：手把手教老婆实现：RocketMQ集群模式（2）-RocketMQ主从-搭建

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

客户管理工具是什么？">客户管理工具是什么？

定制家居数字化管理模式：提升品质、智能化和个性化的未

友情链接

手把手教你如何用Crawlab构建技术文章聚合平台(一)

微信扫一扫：分享

手把手教你在华为云编译和使用ClickHouse">手把手教你在华为云编译和使用ClickHouse

手把手教你搭建 RabbitMQ 集群">手把手教你搭建 RabbitMQ 集群

第八章：手把手教老婆实现：RocketMQ集群模式（2）-RocketMQ主从-搭建">第八章：手把手教老婆实现：RocketMQ集群模式（2）-RocketMQ主从-搭建

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

客户管理工具是什么？">客户管理工具是什么？

友情链接