Python:Scrapy的settings

      網(wǎng)友投稿 589 2025-03-31

      Settings

      Scrapy設置(settings)提供了定制Scrapy組件的方法。可以控制包括核心(core),插件(extension),pipeline及spider組件。比如 設置Json Pipeliine、LOG_LEVEL等。

      參考文檔:http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html#topics-settings-ref

      內(nèi)置設置參考手冊

      BOT_NAME

      默認: 'scrapybot'

      當您使用 startproject 命令創(chuàng)建項目時其也被自動賦值。

      CONCURRENT_ITEMS

      默認: 100

      Item Processor(即 Item Pipeline) 同時處理(每個response的)item的最大值。

      CONCURRENT_requests

      默認: 16

      Scrapy downloader 并發(fā)請求(concurrent requests)的最大值。

      DEFAULT_REQUEST_HEADERS

      默認: 如下

      {

      'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

      'Accept-Language': 'en',

      }

      Scrapy HTTP Request使用的默認header。

      DEPTH_LIMIT

      默認: 0

      爬取網(wǎng)站最大允許的深度(depth)值。如果為0,則沒有限制。

      DOWNLOAD_DELAY

      默認: 0

      下載器在下載同一個網(wǎng)站下一個頁面前需要等待的時間。該選項可以用來限制爬取速度, 減輕服務器壓力。同時也支持小數(shù):

      DOWNLOAD_DELAY = 0.25 # 250 ms of delay

      默認情況下,Scrapy在兩個請求間不等待一個固定的值, 而是使用0.5到1.5之間的一個隨機值 * DOWNLOAD_DELAY 的結(jié)果作為等待間隔。

      DOWNLOAD_TIMEOUT

      Python:Scrapy的settings

      默認: 180

      下載器超時時間(單位: 秒)。

      ITEM_PIPELINES

      默認: {}

      保存項目中啟用的pipeline及其順序的字典。該字典默認為空,值(value)任意,不過值(value)習慣設置在0-1000范圍內(nèi),值越小優(yōu)先級越高。

      ITEM_PIPELINES = {

      'mySpider.pipelines.SomethingPipeline': 300,

      'mySpider.pipelines.ItcastJsonPipeline': 800,

      }

      LOG_ENABLED

      默認: True

      是否啟用logging。

      LOG_ENCODING

      默認: 'utf-8'

      logging使用的編碼。

      LOG_LEVEL

      默認: 'DEBUG'

      log的最低級別。可選的級別有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。

      USER_AGENT

      默認: "Scrapy/VERSION (+http://scrapy.org)"

      爬取的默認User-Agent,除非被覆蓋。

      PROXIES: 代理設置

      示例:

      PROXIES = [

      {'ip_port': '111.11.228.75:80', 'password': ''},

      {'ip_port': '120.198.243.22:80', 'password': ''},

      {'ip_port': '111.8.60.9:8123', 'password': ''},

      {'ip_port': '101.71.27.120:80', 'password': ''},

      {'ip_port': '122.96.59.104:80', 'password': ''},

      {'ip_port': '122.224.249.122:8088', 'password':''},

      ]

      COOKIES_ENABLED = False

      禁用Cookies

      Python Scrapy

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:wps文字怎么保存文檔
      下一篇:利用WPS表格為已有資料打印頁號(wpsword表格打印每頁都有表頭)
      相關(guān)文章
      亚洲人色大成年网站在线观看| 久久精品7亚洲午夜a| 久久亚洲私人国产精品vA| 亚洲精品无码永久在线观看| 亚洲av成人一区二区三区观看在线| 亚洲第一男人天堂| 亚洲精品亚洲人成在线播放| 亚洲女人影院想要爱| 亚洲国产成人va在线观看网址| 亚洲日本乱码一区二区在线二产线| 亚洲高清中文字幕| 亚洲人成免费电影| 亚洲精品福利你懂| 亚洲中文字幕久久无码| 亚洲色大情网站www| 亚洲精品无码mⅴ在线观看| 亚洲精华国产精华精华液| 亚洲国产精品无码中文lv| 无码一区二区三区亚洲人妻| 亚洲v国产v天堂a无码久久| 亚洲国产精品一区二区三区久久| 亚洲人成无码网WWW| 怡红院亚洲怡红院首页| 久久久久久久尹人综合网亚洲| 亚洲第一极品精品无码久久| 亚洲国语精品自产拍在线观看| 亚洲福利视频导航| 亚洲成a人片在线观看播放| 亚洲 暴爽 AV人人爽日日碰| 亚洲成a∨人片在无码2023| 国产精品亚洲综合| 久久亚洲色一区二区三区| 亚洲中文久久精品无码ww16| 久久综合图区亚洲综合图区| 亚洲精品中文字幕乱码影院| 亚洲人成人网毛片在线播放| 久久精品国产亚洲AV天海翼| 亚洲无码高清在线观看| 亚洲爆乳精品无码一区二区三区| 亚洲美女视频网址| 亚洲色大成WWW亚洲女子|