Scrapy框架的使用

網(wǎng)友投稿 836 2025-04-04

Python爬蟲入門之 scrapy框架的使用

scrapy是適用于Python的一個快速、高層次的屏幕抓取和web抓取框架，用于抓取web站點并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy用途廣泛，可以用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試。 [1]

支持自定義，方便，好用。異步的，，速度嗖嗖嗖的！！！

異步處理框架,可配置和可擴展程度非常高,Python中使用最廣泛的爬蟲框架

Scrapy中文文檔

常用命令：

0. 準備工作

查看scrapy命令

scrapy -h

安裝

pip install scrapy

1. 創(chuàng)建一個scrapy項目

創(chuàng)建scrapy項目

scrapy startproject scrapydemo

切換到scrapydemo項目

cd scrapydemo

創(chuàng)建一個新的spider

scrapy genspider scrapydemo bilibili.com

流程圖：

畫圖

Spider的將需要發(fā)送請求的request發(fā)送給Engine（引擎

Engine將request發(fā)送給Scheduler（調(diào)度器

Scheduler（調(diào)度器，可理解為url隊列)，生成request請求交給Engine

Engine拿到request，通過DownloaderMiddleware（可選，主要有UA, Cookie，代理IP）進行層層過濾發(fā)送給Downloader

Downloader向互聯(lián)網(wǎng)發(fā)送請求，獲取到response后，又經(jīng)過SpiderMiddleware（爬蟲中間件）發(fā)送給Engine

Engine獲取到response數(shù)據(jù)之后，返回給Spider，

Spider的parse()方法對獲取到的response數(shù)據(jù)進行處理，解析出item和request，然后發(fā)送給Engine

Engine獲取到item和request，將item發(fā)送給ItemPipeline（管道）進行數(shù)據(jù)持久化，將request發(fā)送給Scheduler（調(diào)度

以上步驟會一直循環(huán)，循環(huán)到無request（url）請求，程序才停止。

注意！即使某個request中報錯了，程序也會繼續(xù)執(zhí)行到?jīng)]有request請求才停止。

部分文件說明：

2. 案例實戰(zhàn)

鏈家

查看君子協(xié)議：https://www.bilibili.com/robots.txt

3. 數(shù)據(jù)持久化

存儲為csv：

cmdline.execute('scrapy crawl spider -o lianjia.csv'.split())

存儲為json：

cmdline.execute('scrapy crawl spider -o lianjia.json'.split())

存儲到數(shù)據(jù)庫：

Scrapy框架的使用

pipeline.py

Python Scrapy

版權(quán)聲明：本文內(nèi)容由網(wǎng)絡用戶投稿，版權(quán)歸原作者所有，本站不擁有其著作權(quán)，亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容，請聯(lián)系我們jiasou666@gmail.com 處理，核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

標簽：scrapy 框架使用

系統(tǒng) 字體問題（win10系統(tǒng)怎么設置密碼）">WIN10系統(tǒng) 字體問題（win10系統(tǒng)怎么設置密碼）

836 2025-04-04

格式的應用（應用文標題的格式）">標題格式的應用（應用文標題的格式）

836 2025-04-04

快遞錄入時間表（快遞收寄時間）

836 2025-04-04

Scrapy框架的使用

系統(tǒng) 字體問題（win10系統(tǒng)怎么設置密碼）">WIN10系統(tǒng) 字體問題（win10系統(tǒng)怎么設置密碼）

格式的應用（應用文標題的格式）">標題格式的應用（應用文標題的格式）

快遞錄入時間表（快遞收寄時間）

推薦文章

企業(yè)生產(chǎn)管理是什么，企業(yè)生產(chǎn)管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統(tǒng)哪個簡單好用？進銷存系統(tǒng)優(yōu)點

工廠生產(chǎn)管理（工廠生產(chǎn)管理流程及制度）

生產(chǎn)管理軟件，機械制造業(yè)生產(chǎn)管理，制造業(yè)生產(chǎn)過程管理軟件

進銷存軟件和ERP有什么區(qū)別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統(tǒng)？

數(shù)據(jù)庫訂單管理系統(tǒng)有哪些功能？數(shù)據(jù)庫訂單管理系統(tǒng)怎么設計？

什么是數(shù)據(jù)庫管理系統(tǒng)？

最近發(fā)表

熱評文章

零代碼開發(fā)是什么？2022低代碼平臺排行榜">零代碼開發(fā)是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統(tǒng)（智慧進銷存）">智能進銷存庫存管理系統(tǒng)（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統(tǒng)的功能有哪些？餐飲服務系統(tǒng)的構(gòu)成及工作程序">連鎖餐飲管理系統(tǒng)的功能有哪些？餐飲服務系統(tǒng)的構(gòu)成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接