Skip to content

设置

  • scrapy 在settings.py中一些配置说明

ROBOTSTXT_OBEY

  • 是否遵守 robots.txt
  • 默认值为 True
json
ROBOTSTXT_OBEY = False

USER_AGENT

  • 配置用户代理
  • 默认值为Scrapy/VERSION (+http://scrapy.org)
  • 会被DEFAULT_REQUEST_HEADERS覆盖
json
USER_AGENT = "MyBot/1.0"

DEFAULT_REQUEST_HEADERS

  • 默认请求头
  • 会被USER_AGENT覆盖
json
DEFAULT_REQUEST_HEADERS = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
    "Accept-Language": "en",
}

ITEM_PIPELINES

  • 配置是否执行管道类
  • 配置的值越小,优先级越高,尽量不要大于 1000
json
ITEM_PIPELINES = {
    "myproject.pipelines.CsvPipeline": 300,
    "myproject.pipelines.MysqlPipeline": 400,
}

SPIDER_MIDDLEWARES

  • 配置是否执行爬虫中间件类
  • 格式"中间件类": 优先级
  • 优先级: 数值越小,优先级越高
  • 默认值为空
json
SPIDER_MIDDLEWARES = {
    "myproject.middlewares.MyCustomSpiderMiddleware": 543,
}

DOWNLOADER_MIDDLEWARES

  • 配置是否执行下载中间件类
  • 格式"中间件类": 优先级
  • 优先级: 数值越小,优先级越高
  • 默认值为空
json
DOWNLOADER_MIDDLEWARES = {
    "myproject.middlewares.MyCustomDownloaderMiddleware": 543,
}

COOKIES_ENABLED

  • 是否启用 cookies
  • 默认值为 True
  • 配置为 False,则不会发送 cookies
json
COOKIES_ENABLED = False

COOKIES_DEBUG

  • 是否启用 cookies 调试
  • 默认值为 False
  • 配置为 True,则会打印 cookies 相关的调试信息
json
COOKIES_DEBUG = True

LOG_LEVEL

  • 日志级别
  • 默认值为DEBUG
  • 可选值为DEBUG, INFO, WARNING, ERROR, CRITICAL
json
LOG_LEVEL = "INFO"

LOG_FILE

  • 日志文件
  • 默认值为空
  • 配置后,日志会写入到文件中
json
LOG_FILE = "scrapy.log"