Python 爬蟲進階三之 Scrapy 框架安裝配置
初級的爬蟲我們利用 urllib 和 urllib2 庫以及正則表達式就可以完成了,不過還有更加強大的工具,爬蟲框架 Scrapy,這安裝過程也是煞費苦心哪,在此整理如下。
Windows 平臺:
我的系統是 Win7,首先,你要有 Python,我用的是 2.7.7 版本,Python3 相仿,只是一些源文件不同。 官網文檔:http://doc.scrapy.org/en/latest/intro/install.html,最權威噠,下面是我的親身體驗過程。 1. 安裝 Python 安裝過程我就不多說啦,我的電腦中已經安裝了 Python 2.7.7 版本啦,安裝完之后記得配置環境變量,比如我的安裝在 D 盤,D:\python2.7.7,就把以下兩個路徑添加到 Path 變量中
1
D:\python2.7.7;D:\python2.7.7\Scripts
配置好了之后,在命令行中輸入 python —version,如果沒有提示錯誤,則安裝成功 2. 安裝 pywin32 在 windows 下,必須安裝 pywin32,安裝地址:http://sourceforge.net/projects/pywin32/ 下載對應版本的 pywin32,直接雙擊安裝即可,安裝完畢之后驗證: 在 python 命令行下輸入 import win32com 如果沒有提示錯誤,則證明安裝成功 3. 安裝 pip pip 是用來安裝其他必要包的工具,首先下載 get-pip.py 下載好之后,選中該文件所在路徑,執行下面的命令
1
python get-pip.py
執行命令后便會安裝好 pip,并且同時,它幫你安裝了 setuptools 安裝完了之后在命令行中執行
1
pip --version
如果提示如下,說明就安裝成功了,如果提示不是內部或外部命令,那么就檢查一下環境變量有沒有配置好吧,有兩個路徑。 4. 安裝 pyOPENSSL 在 Windows 下,是沒有預裝 pyOPENSSL 的,而在 Linux 下是已經安裝好的。 安裝地址:https://launchpad.net/pyopenssl 5. 安裝 lxml lxml 的詳細介紹 點我 ,是一種使用 Python 編寫的庫,可以迅速、靈活地處理 XML 直接執行如下命令
1
pip install lxml
就可完成安裝,如果提示 Microsoft Visual C++ 庫沒安裝,則 點我 下載支持的庫。 6. 安裝 Scrapy 最后就是激動人心的時刻啦,上面的鋪墊做好了,我們終于可以享受到勝利的果實啦! 執行如下命令
1
pip install Scrapy
pip 會另外下載其他依賴的包,這些就不要我們手動安裝啦,等待一會,大功告成! 7. 驗證安裝 輸入 Scrapy 如果提示如下命令,就證明安裝成功啦,如果失敗了,請檢查上述步驟有何疏漏。
Linux Ubuntu 平臺:
Linux 下安裝非常簡單,只需要執行幾條命令幾個 1. 安裝 Python
1
sudo apt-get install python2.7 python2.7-dev
2. 安裝 pip 首先下載 get-pip.py 下載好之后,選中該文件所在路徑,執行下面的命令
1
sudo python get-pip.py
3. 直接安裝 Scrapy 由于 Linux 下已經預裝了 lxml 和 OPENSSL 如果想驗證 lxml ,可以分別輸入
1
sudo pip install lxml
出現下面的提示這證明已經安裝成功
1
Requirement already satisfied (use --upgrade to upgrade): lxml in /usr/lib/python2.7/dist-packages
如果想驗證 openssl,則直接輸入 openssl 即可,如果跳轉到 OPENSSL 命令行,則安裝成功。 接下來直接安裝 Scrapy 即可
1
sudo pip install Scrapy
安裝完畢之后,輸入 scrapy 注意,這里 linux 下不要輸入 Scrapy,linux 依然嚴格區分大小寫的,感謝 kamen 童鞋提醒。 如果出現如下提示,這證明安裝成功
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Usage:
scrapy
Available commands:
bench Run quick benchmark test
fetch Fetch a URL using the Scrapy downloader
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy
[ more ] More commands available when run from project directory
截圖如下 如有問題,歡迎留言!祝各位小伙伴順利安裝!
HTTP Python Scrapy
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。