简介

Scrapy 是一个快速高级的网络爬虫和网络抓取框架，用于爬取网站并从中提取结构化数据。它可用于广泛的用途，从数据挖掘到监控和自动化测试。
官方文档：https://docs.scrapy.net.cn/en/latest

安装

bash

pip install scrapy

工作流程

一般情况
scrapy 工作流程

组件

引擎(Engine)：
- 总指挥：负责数据和信号在不同的模块之间的传递。
- 开发者基本不需要关注，由scrapy框架处理。
调度器(Scheduler)：
- 一个队列，存放引擎发过来的请求。
- 开发者基本不需要关注，由scrapy框架处理。
下载器(Downloader)：
- 下载吧引擎发过来的请求，下载完后，将响应发送给引擎。
- 开发者基本不需要关注，由scrapy框架处理。
爬虫(Spiders)：
- 处理引擎发过来的 response，定义如何提取数据的规则, 进行数据提取。
- 开发者主要工作地方
项目管道(Pipeline)：
- 负责处理提取到的数据，如存储到数据库或文件中。
- 开发者主要工作地方
中间件(Middlewares)：
- 用于处理请求和响应，如添加 headers、处理 cookies 等。
- 开发者主要工作地方