Python:Scrapy的settings

網(wǎng)友投稿 589 2025-03-31

Settings

Scrapy設置(settings)提供了定制Scrapy組件的方法。可以控制包括核心(core)，插件(extension)，pipeline及spider組件。比如設置Json Pipeliine、LOG_LEVEL等。

參考文檔：http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.html#topics-settings-ref

內(nèi)置設置參考手冊

BOT_NAME

默認: 'scrapybot'

當您使用 startproject 命令創(chuàng)建項目時其也被自動賦值。

CONCURRENT_ITEMS

默認: 100

Item Processor(即 Item Pipeline) 同時處理(每個response的)item的最大值。

CONCURRENT_requests

默認: 16

Scrapy downloader 并發(fā)請求(concurrent requests)的最大值。

DEFAULT_REQUEST_HEADERS

默認: 如下

{

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Language': 'en',

}

Scrapy HTTP Request使用的默認header。

DEPTH_LIMIT

默認: 0

爬取網(wǎng)站最大允許的深度(depth)值。如果為0，則沒有限制。

DOWNLOAD_DELAY

默認: 0

下載器在下載同一個網(wǎng)站下一個頁面前需要等待的時間。該選項可以用來限制爬取速度，減輕服務器壓力。同時也支持小數(shù):

DOWNLOAD_DELAY = 0.25 # 250 ms of delay

默認情況下，Scrapy在兩個請求間不等待一個固定的值，而是使用0.5到1.5之間的一個隨機值 * DOWNLOAD_DELAY 的結(jié)果作為等待間隔。

DOWNLOAD_TIMEOUT

Python:Scrapy的settings

默認: 180

下載器超時時間(單位: 秒)。

ITEM_PIPELINES

默認: {}

保存項目中啟用的pipeline及其順序的字典。該字典默認為空，值(value)任意，不過值(value)習慣設置在0-1000范圍內(nèi)，值越小優(yōu)先級越高。

ITEM_PIPELINES = {

'mySpider.pipelines.SomethingPipeline': 300,

'mySpider.pipelines.ItcastJsonPipeline': 800,

}

LOG_ENABLED

默認: True

是否啟用logging。

LOG_ENCODING

默認: 'utf-8'

logging使用的編碼。

LOG_LEVEL

默認: 'DEBUG'

log的最低級別。可選的級別有: CRITICAL、 ERROR、WARNING、INFO、DEBUG 。

USER_AGENT

默認: "Scrapy/VERSION (+http://scrapy.org)"

爬取的默認User-Agent，除非被覆蓋。

PROXIES：代理設置

示例：

PROXIES = [

{'ip_port': '111.11.228.75:80', 'password': ''},

{'ip_port': '120.198.243.22:80', 'password': ''},

{'ip_port': '111.8.60.9:8123', 'password': ''},

{'ip_port': '101.71.27.120:80', 'password': ''},

{'ip_port': '122.96.59.104:80', 'password': ''},

{'ip_port': '122.224.249.122:8088', 'password':''},

]

COOKIES_ENABLED = False

禁用Cookies

Python Scrapy

版權(quán)聲明：本文內(nèi)容由網(wǎng)絡用戶投稿，版權(quán)歸原作者所有，本站不擁有其著作權(quán)，亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容，請聯(lián)系我們jiasou666@gmail.com 處理，核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

標簽：服務器下一個 requests

相關(guān)文章

機器人操作系統(tǒng)ROS 2和仿真軟件Gazebo 9服務進階實戰(zhàn)（八）- mobot行駛至目標位置">使用機器人操作系統(tǒng)ROS 2和仿真軟件Gazebo 9服務進階實戰(zhàn)（八）- mobot行駛至目標位置

589 2025-03-31

HTTP 狀態(tài)消息

589 2025-03-31

Nginx搭建LNMP架構(gòu)

589 2025-03-31

<del id="gqeui"></del>

Python:Scrapy的settings

機器人操作系統(tǒng)ROS 2和仿真軟件Gazebo 9服務進階實戰(zhàn)（八）- mobot行駛至目標位置">使用機器人操作系統(tǒng)ROS 2和仿真軟件Gazebo 9服務進階實戰(zhàn)（八）- mobot行駛至目標位置

HTTP 狀態(tài)消息

Nginx搭建LNMP架構(gòu)

推薦文章

企業(yè)生產(chǎn)管理是什么，企業(yè)生產(chǎn)管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統(tǒng)哪個簡單好用？進銷存系統(tǒng)優(yōu)點

工廠生產(chǎn)管理（工廠生產(chǎn)管理流程及制度）

生產(chǎn)管理軟件，機械制造業(yè)生產(chǎn)管理，制造業(yè)生產(chǎn)過程管理軟件

進銷存軟件和ERP有什么區(qū)別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統(tǒng)？

數(shù)據(jù)庫訂單管理系統(tǒng)有哪些功能？數(shù)據(jù)庫訂單管理系統(tǒng)怎么設計？

什么是數(shù)據(jù)庫管理系統(tǒng)？

最近發(fā)表

熱評文章

零代碼開發(fā)是什么？2022低代碼平臺排行榜">零代碼開發(fā)是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統(tǒng)（智慧進銷存）">智能進銷存庫存管理系統(tǒng)（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數(shù)字化管理模式：提升品質(zhì)、智能化和個性化的未

智能定制家居管理系統(tǒng)：重新定義家庭生活方式

友情鏈接