爬蟲基本原理講解（七）

網友投稿 716 2025-04-03

1.什么是爬?？

2.爬蟲基本流程

3.什么是Request和Response?

4.Request中包含什么？

5.Response中包含什么?

6.爬蟲能抓怎樣的數據？

7.怎樣來解析？

8.為什什么我抓到的和瀏覽器?看到的不一樣？

9.怎樣解決javaScript渲染的問題？

10.可以怎樣保存數據

1.什么是爬?？

請求網站并提取數據的自動化程序

2.爬蟲基本流程

2.1 發起請求

通過HTTP庫向目標站點發起請求，即發送一個Request，請求可以包含額外的headers等信息，等待服務器響應。

2.2 獲取響應內容

如果服務器能正常響應，會得到一個Response，Response的內容便是所要獲取的頁面內容，類型可能有HTML，Json字符串，二進制數據（如圖片視頻）等類型。

2.3 解析內容

得到的內容可能是HTML，可以用正則表達式、網頁解析庫進行解析?？赡苁荍son，可以直接轉為Json對象解析，可能是二進制數據，可以做保存或者進一步的處理。

2.4 保存數據

保存形式多樣，可以存為文本，也可以保存至數據庫，或者保存特定格式的文件。

3.什么是Request和Response?

Request與Response

（1）瀏覽器就發送消息給該網址所在的服務器，這個過程叫做HTTP Request。

（2）服務器收到瀏覽器發送的消息后，能夠根據瀏覽器發送消息的內容，做相應處理，然后把消息回傳給瀏覽器。這個過程叫做HTTP Response。

（3）瀏覽器收到服務器的Response信息后，會對信息進行相應處理，然后展示。

4.Request中包含什么？

(1) 請求方式

主要有GET、POST兩種類型，另外還有HEAD、PUT、DELETE、OPTIONS等。

(2) 請求URL

URL全稱統一資源定位符，如一個網頁文檔、一張圖片、一個視頻等都可以用URL唯一來確定。

(3) 請求頭

包含請求時的頭部信息，如User-Agent、Host、Cookies等信息。

(4) 請求體

請求時額外攜帶的數據，如表單提交時的表單數據

5.Response中包含什么?

(1) 響應狀態

有多種響應狀態，如200代表成功、301跳轉、404找不到頁面、502服務器錯誤

(2) 響應頭

如內容類型、內容長度、服務器信息、設置Cookie等等。

(3) 響應體

爬蟲基本原理講解（七）

最主要的部分，包含了請求資源的內容，如網頁HTML、圖片二進制數據等。

6.爬蟲能抓怎樣的數據？

(1) 網頁文本

如HTML文檔、Json格式文本等。

(2) 圖片

獲取到的是二進制文件，保存為圖片格式。

(3) 視頻

同為二進制文件，保存為視頻格式即可。

(4) 其他

只要是能請求到的，都能獲取。

7.怎樣來解析？

解析方式

8.為什什么我抓到的和瀏覽器?看到的不一樣？

9.怎樣解決javaScript渲染的問題？

10.可以怎樣保存數據

HTML HTTP

標簽：二進制文件 javaScript 服務器

機器人操作系統ROS 2和仿真軟件Gazebo 9服務進階實戰（八）- mobot行駛至目標位置">使用機器人操作系統ROS 2和仿真軟件Gazebo 9服務進階實戰（八）- mobot行駛至目標位置

716 2025-04-03

HTTP 狀態消息

716 2025-04-03

Nginx搭建LNMP架構

716 2025-04-03

爬蟲基本原理講解（七）

機器人操作系統ROS 2和仿真軟件Gazebo 9服務進階實戰（八）- mobot行駛至目標位置">使用機器人操作系統ROS 2和仿真軟件Gazebo 9服務進階實戰（八）- mobot行駛至目標位置

HTTP 狀態消息

Nginx搭建LNMP架構

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接

爬蟲基本原理講解（七）

機器人操作系統ROS 2和仿真軟件Gazebo 9服務進階實戰（八）- mobot行駛至目標位置">使用機器人操作系統ROS 2和仿真軟件Gazebo 9服務進階實戰（八）- mobot行駛至目標位置

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

友情鏈接

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦