Scrapy<a target="_blank" href="https://www.huoban.com/news/tags-963.html"style="font-weight:bold;">框架</a>的<a target="_blank" href="https://www.huoban.com/news/tags-50.html"style="font-weight:bold;">使用</a>-伙伴云

Scrapy框架的使用

网友投稿 834 2025-04-04

Python爬虫入门之 scrapy框架的使用

scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。 [1]

支持自定义，方便，好用。异步的，，速度嗖嗖嗖的！！！

异步处理框架,可配置和可扩展程度非常高,Python中使用最广泛的爬虫框架

Scrapy中文文档

常用命令：

0. 准备工作

查看scrapy命令

scrapy -h

安装

pip install scrapy

1. 创建一个scrapy项目

创建scrapy项目

scrapy startproject scrapydemo

切换到scrapydemo项目

cd scrapydemo

创建一个新的spider

scrapy genspider scrapydemo bilibili.com

流程图：

画图

Spider的将需要发送请求的request发送给Engine（引擎

Engine将request发送给Scheduler（调度器

Scheduler（调度器，可理解为url队列)，生成request请求交给Engine

Engine拿到request，通过DownloaderMiddleware（可选，主要有UA, Cookie，代理IP）进行层层过滤发送给Downloader

Downloader向互联网发送请求，获取到response后，又经过SpiderMiddleware（爬虫中间件）发送给Engine

Engine获取到response数据之后，返回给Spider，

Spider的parse()方法对获取到的response数据进行处理，解析出item和request，然后发送给Engine

Engine获取到item和request，将item发送给ItemPipeline（管道）进行数据持久化，将request发送给Scheduler（调度

以上步骤会一直循环，循环到无request（url）请求，程序才停止。

注意！即使某个request中报错了，程序也会继续执行到没有request请求才停止。

部分文件说明：

2. 案例实战

链家

查看君子协议：https://www.bilibili.com/robots.txt

3. 数据持久化

存储为csv：

cmdline.execute('scrapy crawl spider -o lianjia.csv'.split())

存储为json：

cmdline.execute('scrapy crawl spider -o lianjia.json'.split())

存储到数据库：

Scrapy框架的使用

pipeline.py

Python Scrapy

系统字体问题（win10系统怎么设置密码）">WIN10系统字体问题（win10系统怎么设置密码）

834 2025-04-04

格式的应用（应用文标题的格式）">标题格式的应用（应用文标题的格式）

834 2025-04-04

快递录入时间表（快递收寄时间）

834 2025-04-04

Scrapy框架的使用

系统字体问题（win10系统怎么设置密码）">WIN10系统字体问题（win10系统怎么设置密码）

格式的应用（应用文标题的格式）">标题格式的应用（应用文标题的格式）

快递录入时间表（快递收寄时间）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

客户管理工具是什么？">客户管理工具是什么？

友情链接

Scrapy框架的使用

微信扫一扫：分享

系统 字体问题（win10系统怎么设置密码）">WIN10系统 字体问题（win10系统怎么设置密码）

格式的应用（应用文标题的格式）">标题格式的应用（应用文标题的格式）

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

客户管理工具是什么？">客户管理工具是什么？

友情链接

系统字体问题（win10系统怎么设置密码）">WIN10系统字体问题（win10系统怎么设置密码）