公眾號文章匯總
1003
2025-04-04
本文總結了與Scrapy框架相關的一些開源工具
1、scrapyd
項目地址:https://github.com/scrapy/scrapyd
文檔: https://scrapyd.readthedocs.io/
Scrapyd 是一個運行 Scrapy 爬蟲程序的服務
pip install scrapyd scrapyd # 啟動服務
1
2
3
環境測試: http://localhost:6800/
2、ScrapydAPI
項目地址:https://github.com/djm/python-scrapyd-api
一個 Scrapyd API 的python封裝
pip install python-scrapyd-api
1
from scrapyd_api import ScrapydAPI scrapyd = ScrapydAPI('http://localhost:6800')
1
2
3
3、ScrapydArt
項目地址:https://github.com/dequinns/ScrapydArt
ScrapydArt在Scrapyd基礎上新增了權限驗證、篩選過濾、排序、數據統計以及排行榜等功能,并且有了更強大的API
pip install scrapydart $ scrapydart # 啟動
1
2
3
web界面 http://localhost:6800
4、ScrapydWeb
項目地址:https://github.com/my8100/scrapydweb
功能特性:
Scrapyd 集群管理
Scrapy 日志分析
支持所有 Scrapyd API
web UI 支持 Basic Auth
pip install scrapydweb $ scrapydweb -h # 初始化 $ scrapydweb # 啟動
1
2
3
4
管理頁面:http://127.0.0.1:5000
參考:
如何通過 Scrapyd + ScrapydWeb 簡單高效地部署和監控分布式爬蟲項目
5、Gerapy
項目地址:https://github.com/Gerapy/Gerapy
一款分布式爬蟲管理框架
控制爬蟲運行,
查看爬蟲狀態,
查看爬取結果,
項目部署,
主機管理,
編寫爬蟲代碼
pip3 install gerapy $ gerapy init $ cd gerapy $ gerapy migrate $ gerapy runserver
1
2
3
4
5
6
web界面: http://localhost:8000
參考:
scrapyd部署、使用Gerapy 分布式爬蟲管理框架
6、SpiderKeeper
項目地址:https://github.com/DormyMo/SpiderKeeper
一個scrapyd的可視化工具
pip install spiderkeeper $ spiderkeeper # 啟動
1
2
3
web ui : http://localhost:5000
7、SpiderAdmin
github: https://github.com/mouday/SpiderAdmin
pypi: https://pypi.org/project/spideradmin/
功能介紹
1、對Scrapyd 接口進行可視化封裝,對Scrapy爬蟲項目進行刪除 和 查看
2、對爬蟲設置定時任務,支持apscheduler 的3中方式和隨機延時,共計4中方式
單次運行 date
周期運行 corn
間隔運行 interval
隨機運行 random
3、基于Flask-BasicAuth 做了簡單的權限校驗
啟動運行
$ pip3 install spideradmin $ spideradmin # 啟動服務
1
2
3
訪問:
http://127.0.0.1:5000/
總結
Python Scrapy 分布式
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。