<strike id="6m22m"></strike>

Python 爬蟲之 Requests 庫

網友投稿 756 2025-03-31

所謂爬蟲就是模擬客戶端發送網絡請求，獲取網絡響應，并按照一定的規則解析獲取的數據并保存的程序。要說 Python 的爬蟲必然繞不過 requests 庫。

1 簡介

對于 requests 庫，官方文檔是這么說的：

Requests 唯一的一個非轉基因的 Python HTTP 庫，人類可以安全享用。

警告：非專業使用其他 HTTP 庫會導致危險的副作用，包括：安全缺陷癥、冗余代碼癥、重新發明輪子癥、啃文檔癥、抑郁、頭疼、甚至死亡。

這個介紹還是比較生動形象的，便不再多說。安裝使用終端命令 pip install requests 。

2 快速上手

導入 Requests 模塊：

import requests

獲取網頁：

r = requests.get('http://xxx.xxx')

此時，我們獲取了 Response 對象 r，我們可以通過 r 獲取所需信息。Requests 簡便的 API 意味著所有 HTTP 請求類型都是顯而易見的，我們來看一下使用常見 HTTP 請求類型 get、post、put、delete 的示例：

r = requests.head('http://xxx.xxx/get') r = requests.post('http://xxx.xxx/post', data = {'key':'value'}) r = requests.put('http://xxx.xxx/put', data = {'key':'value'}) r = requests.delete('http://xxx.xxx/delete')

通常我們會設置請求的超時時間，Requests 使用 timeout 參數來設置，單位是秒，示例如下：

r = requests.head('http://xxx.xxx/get', timeout=1)

在使用 get 方式發送請求時，我們會將鍵值對形式參數放在 URL 中問號的后面，如：http://xxx.xxx/get?key=val ，Requests 通過 params 關鍵字，以一個字符串字典來提供這些參數。比如要傳 key1=val1 和 key2=val2 到 http://xxx.xxx/get，示例如下：

pms= {'key1': 'val1', 'key2': 'val2'} r = requests.get("http://xxx.xxx/get", params=pms)

Requests 還允許將一個列表作為值傳入：

pms= {'key1': 'val1', 'key2': ['val2', 'val3']}

注：字典里值為 None 的鍵都不會被添加到 URL 的查詢字符串里。

我們來獲取一下服務器的響應內容，這里地址 https://api.github.com 為例：

import requests r = requests.get('https://api.github.com') print(r.text) # 輸出結果 # {"current_user_url":"https://api.github.com/user","current_user...

當訪問 r.text 之時，Requests 會使用其推測的文本編碼，我們可以使用 r.encoding 查看其編碼，也可以修改編碼，如：r.encoding = 'GBK'，當改變了編碼，再次訪問 r.text 時，Request 都將會使用 r.encoding 的新值。

1）二進制響應內容

比如當我們要獲取一張圖片的數據，會以二進制的方式獲取響應數據，示例如下：

from PIL import Image from io import BytesIO i = Image.open(BytesIO(r.content))

2）JSON響應內容

Requests 中已經內置了 JSON 解碼器，因此我們可以很容易的對 JSON 數據進行解析，示例如下：

import requests r = requests.get('https://api.github.com') r.json()

注:成功調用 r.json() 并不一定響應成功，有的服務器會在失敗的響應中包含一個 JSON 對象（比如 HTTP 500 的錯誤細節），這時我們就需要查看響應的狀態碼了 r.status_code 或 r.raise_for_status()，成功調用時 r.status_code 為 200，r.raise_for_status() 為 None。

當我們要給請求添加 headers 時，只需給 headers 參數傳遞一個字典即可，示例如下：

url = 'http://xxx.xxx' hds= {'user-agent': 'xxx'} r = requests.get(url, headers=hds)

注：自定義 headers 優先級是低于一些特定的信息的，如：在 .netrc 中設置了用戶認證信息，使用 headers 設置的授權就不會生效，而當設置了 auth 參數，.netrc 的設置會無效。所有的 headers 值必須是 string、bytestring 或者 unicode，通常不建議使用 unicode。

默認情況下，Requests 會自動處理除了 HEAD 以外的所有重定向，可以使用響應對象的 history 屬性來追蹤重定向，其返回為響應對象列表，這個列表是按照請求由晚到早進行排序的，看一下示例：

import requests r = requests.get('http://github.com') print(r.history) # 輸出結果 # []

如果使用的是 get、post、put、delete、options、patch 可以使用 allow_redirects 參數禁用重定向。示例如下：

Python 爬蟲之 Requests 庫

r = requests.get('http://xxx.xxx', allow_redirects=False)

當遇到網絡問題（如：DNS 查詢失敗、拒絕連接等）時，Requests 會拋出 ConnectionError 異常；在 HTTP 請求返回了不成功的狀態碼時， Response.raise_for_status() 會拋出 HTTPError 異常；請求超時，會拋出 Timeout 異常；請求超過了設定的最大重定向次數，會拋出 TooManyRedirects 異常。所有 Requests 顯式拋出的異常都繼承自 requests.exceptions.RequestException。

Python 爬蟲

標簽：Python 爬蟲 requests

辦公 自動化(三) | 借助服務器定時爬數據發郵件">python辦公 自動化(三) | 借助服務器定時爬數據發郵件

756 2025-03-31

Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝">[Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝

756 2025-03-31

Python 庫的安裝">Elasticsearch Python 庫的安裝

756 2025-03-31

<fieldset id="sswsi"></fieldset>

Python 爬蟲之 Requests 庫

辦公 自動化(三) | 借助服務器定時爬數據發郵件">python辦公 自動化(三) | 借助服務器定時爬數據發郵件

Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝">[Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝

Python 庫的安裝">Elasticsearch Python 庫的安裝

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接