分布式主动感知在智能运维中的实践|分享实录(物联网中全面感知特点能够感知哪些数据)
883
2022-05-30
本文总结了与Scrapy框架相关的一些开源工具
1、scrapyd
项目地址:https://github.com/scrapy/scrapyd
文档: https://scrapyd.readthedocs.io/
Scrapyd 是一个运行 Scrapy 爬虫程序的服务
pip install scrapyd scrapyd # 启动服务
1
2
3
环境测试: http://localhost:6800/
2、ScrapydAPI
项目地址:https://github.com/djm/python-scrapyd-api
一个 Scrapyd API 的python封装
pip install python-scrapyd-api
1
from scrapyd_api import ScrapydAPI scrapyd = ScrapydAPI('http://localhost:6800')
1
2
3
3、ScrapydArt
项目地址:https://github.com/dequinns/ScrapydArt
ScrapydArt在Scrapyd基础上新增了权限验证、筛选过滤、排序、数据统计以及排行榜等功能,并且有了更强大的API
pip install scrapydart $ scrapydart # 启动
1
2
3
web界面 http://localhost:6800
4、ScrapydWeb
项目地址:https://github.com/my8100/scrapydweb
功能特性:
Scrapyd 集群管理
Scrapy 日志分析
支持所有 Scrapyd API
web UI 支持 Basic Auth
pip install scrapydweb $ scrapydweb -h # 初始化 $ scrapydweb # 启动
1
2
3
4
管理页面:http://127.0.0.1:5000
参考:
如何通过 Scrapyd + ScrapydWeb 简单高效地部署和监控分布式爬虫项目
5、Gerapy
项目地址:https://github.com/Gerapy/Gerapy
一款分布式爬虫管理框架
控制爬虫运行,
查看爬虫状态,
查看爬取结果,
项目部署,
主机管理,
编写爬虫代码
pip3 install gerapy $ gerapy init $ cd gerapy $ gerapy migrate $ gerapy runserver
1
2
3
4
5
6
web界面: http://localhost:8000
参考:
scrapyd部署、使用Gerapy 分布式爬虫管理框架
6、SpiderKeeper
项目地址:https://github.com/DormyMo/SpiderKeeper
一个scrapyd的可视化工具
pip install spiderkeeper $ spiderkeeper # 启动
1
2
3
web ui : http://localhost:5000
7、SpiderAdmin
github: https://github.com/mouday/SpiderAdmin
pypi: https://pypi.org/project/spideradmin/
功能介绍
1、对Scrapyd 接口进行可视化封装,对Scrapy爬虫项目进行删除 和 查看
2、对爬虫设置定时任务,支持apscheduler 的3中方式和随机延时,共计4中方式
单次运行 date
周期运行 corn
间隔运行 interval
随机运行 random
3、基于Flask-BasicAuth 做了简单的权限校验
启动运行
$ pip3 install spideradmin $ spideradmin # 启动服务
1
2
3
访问:
http://127.0.0.1:5000/
总结
Python Scrapy 分布式
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。