爬蟲基本原理講解(七)
1.什么是爬??

2.爬蟲基本流程
3.什么是Request和Response?
4.Request中包含什么?
5.Response中包含什么?
6.爬蟲能抓怎樣的數據?
7.怎樣來解析?
8.為什什么我抓到的和瀏覽器?看到的不一樣?
9.怎樣解決javaScript渲染的問題?
10.可以怎樣保存數據
1.什么是爬??
請求網站并提取數據的自動化程序
2.爬蟲基本流程
2.1 發起請求
通過HTTP庫向目標站點發起請求,即發送一個Request,請求可以包含額外的headers等信息,等待服務器響應。
2.2 獲取響應內容
如果服務器能正常響應,會得到一個Response,Response的內容便是所要獲取的頁面內容,類型可能有HTML,Json字符串,二進制數據(如圖片視頻)等類型。
2.3 解析內容
得到的內容可能是HTML,可以用正則表達式、網頁解析庫進行解析??赡苁荍son,可以直接轉為Json對象解析,可能是二進制數據,可以做保存或者進一步的處理。
2.4 保存數據
保存形式多樣,可以存為文本,也可以保存至數據庫,或者保存特定格式的文件。
3.什么是Request和Response?
Request與Response
(1)瀏覽器就發送消息給該網址所在的服務器,這個過程叫做HTTP Request。
(2)服務器收到瀏覽器發送的消息后,能夠根據瀏覽器發送消息的內容,做相應處理,然后把消息回傳給瀏覽器。這個過程叫做HTTP Response。
(3)瀏覽器收到服務器的Response信息后,會對信息進行相應處理,然后展示。
4.Request中包含什么?
(1) 請求方式
主要有GET、POST兩種類型,另外還有HEAD、PUT、DELETE、OPTIONS等。
(2) 請求URL
URL全稱統一資源定位符,如一個網頁文檔、一張圖片、一個視頻等都可以用URL唯一來確定。
(3) 請求頭
包含請求時的頭部信息,如User-Agent、Host、Cookies等信息。
(4) 請求體
請求時額外攜帶的數據,如表單提交時的表單數據
5.Response中包含什么?
(1) 響應狀態
有多種響應狀態,如200代表成功、301跳轉、404找不到頁面、502服務器錯誤
(2) 響應頭
如內容類型、內容長度、服務器信息、設置Cookie等等。
(3) 響應體
最主要的部分,包含了請求資源的內容,如網頁HTML、圖片二進制數據等。
6.爬蟲能抓怎樣的數據?
(1) 網頁文本
如HTML文檔、Json格式文本等。
(2) 圖片
獲取到的是二進制文件,保存為圖片格式。
(3) 視頻
同為二進制文件,保存為視頻格式即可。
(4) 其他
只要是能請求到的,都能獲取。
7.怎樣來解析?
解析方式
8.為什什么我抓到的和瀏覽器?看到的不一樣?
9.怎樣解決javaScript渲染的問題?
10.可以怎樣保存數據
HTML HTTP
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。