【Python3網絡爬蟲開發實戰】3.1-使用urllib
在Python 2中,有urllib和urllib2兩個庫來實現請求的發送。而在Python 3中,已經不存在urllib2這個庫了,統一為urllib,其官方文檔鏈接為:https://docs.python.org/3/library/urllib.html。
首先,了解一下urllib庫,它是Python內置的HTTP請求庫,也就是說不需要額外安裝即可使用。它包含如下4個模塊。
request:它是最基本的HTTP請求模塊,可以用來模擬發送請求。就像在瀏覽器里輸入網址然后回車一樣,只需要給庫方法傳入URL以及額外的參數,就可以模擬實現這個過程了。
error:異常處理模塊,如果出現請求錯誤,我們可以捕獲這些異常,然后進行重試或其他操作以保證程序不會意外終止。
parse:一個工具模塊,提供了許多URL處理方法,比如拆分、解析、合并等。
robotparser:主要是用來識別網站的robots.txt文件,然后判斷哪些網站可以爬,哪些網站不可以爬,它其實用得比較少。
這里重點講解一下前3個模塊。
【快速入口】:3.1.1-發送請求
【快速入口】:3.1.2處理異常
【快速入口】:3.1.3解析鏈接
網絡 Python
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。