Appearance
设置
- scrapy 在
settings.py中一些配置说明
ROBOTSTXT_OBEY
- 是否遵守 robots.txt
- 默认值为 True
json
ROBOTSTXT_OBEY = FalseUSER_AGENT
- 配置用户代理
- 默认值为
Scrapy/VERSION (+http://scrapy.org) - 会被
DEFAULT_REQUEST_HEADERS覆盖
json
USER_AGENT = "MyBot/1.0"DEFAULT_REQUEST_HEADERS
- 默认请求头
- 会被
USER_AGENT覆盖
json
DEFAULT_REQUEST_HEADERS = {
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Accept-Language": "en",
}ITEM_PIPELINES
- 配置是否执行管道类
- 配置的值越小,优先级越高,尽量不要大于 1000
json
ITEM_PIPELINES = {
"myproject.pipelines.CsvPipeline": 300,
"myproject.pipelines.MysqlPipeline": 400,
}SPIDER_MIDDLEWARES
- 配置是否执行爬虫中间件类
- 格式
"中间件类": 优先级 - 优先级: 数值越小,优先级越高
- 默认值为空
json
SPIDER_MIDDLEWARES = {
"myproject.middlewares.MyCustomSpiderMiddleware": 543,
}DOWNLOADER_MIDDLEWARES
- 配置是否执行下载中间件类
- 格式
"中间件类": 优先级 - 优先级: 数值越小,优先级越高
- 默认值为空
json
DOWNLOADER_MIDDLEWARES = {
"myproject.middlewares.MyCustomDownloaderMiddleware": 543,
}COOKIES_ENABLED
- 是否启用 cookies
- 默认值为 True
- 配置为 False,则不会发送 cookies
json
COOKIES_ENABLED = FalseCOOKIES_DEBUG
- 是否启用 cookies 调试
- 默认值为 False
- 配置为 True,则会打印 cookies 相关的调试信息
json
COOKIES_DEBUG = TrueLOG_LEVEL
- 日志级别
- 默认值为
DEBUG - 可选值为
DEBUG,INFO,WARNING,ERROR,CRITICAL
json
LOG_LEVEL = "INFO"LOG_FILE
- 日志文件
- 默认值为空
- 配置后,日志会写入到文件中
json
LOG_FILE = "scrapy.log"