使用 BeautifulSoup庫 解析htm、xml文檔

網友投稿 750 2022-05-29

BeautifulSoup

安裝：

~/Desktop$ sudo pip install beautifulsoup4

測試：

from bs4 import BeautifulSoup if __name__ == "__main__": # 第一個參數是html文檔文本，第二個參數是指定的解析器 soup = BeautifulSoup('

data

', 'html.parser') print(soup.prettify())

輸出：

data

說明安裝成功了。

Beautiful Soup庫也叫bs4，Beautiful Soup庫是解析、遍歷、維護 “標簽樹”的功能庫。

Beautiful Soup庫解析器：

Beatiful Soup類的基本元素

示例：

import requests from bs4 import BeautifulSoup def handle_url(url): try: r = requests.get("http://www.baidu.com") r.raise_for_status() if r.encoding == 'ISO-8859-1': r.encoding = r.apparent_encoding demo = r.text soup = BeautifulSoup(demo, 'html.parser') # a標簽有很多個，但soup.a返回第一個 print(soup.a) # print(type(soup.a)) # 標簽名a print(soup.a.name) # print(type(soup.a.name)) # 標簽內的屬性的字典，鍵值對 print(soup.a.attrs) # print(type(soup.a.attrs)) # 獲取a標簽的href屬性值 print(soup.a.attrs['href']) # print(type(soup.a.attrs['href'])) # 標簽的內容 print(soup.a.string) # a標簽的父元素 print(soup.a.parent) except: print("fail fail fail") if __name__ == "__main__": url = "http://www.baidu.com" handle_url(url)

Beatiful Soup遍歷HTML元素

Html具有樹型結構，因此遍歷有三種：

下行遍歷：

import requests from bs4 import BeautifulSoup def handle_url(url): try: r = requests.get("http://www.baidu.com") r.raise_for_status() if r.encoding == 'ISO-8859-1': r.encoding = r.apparent_encoding demo = r.text soup = BeautifulSoup(demo, 'html.parser') print(soup.head) # head標簽的兒子節點 print(soup.head.contents) # 是list列表類型 print(type(soup.head.contents)) # head有5個兒子節點 print(len(soup.head.contents)) # 取出head的第5個兒子節點 print(soup.head.contents[4]) # 使用children遍歷兒子節點 for child in soup.head.children: print(child) # 使用descendants遍歷子孫節點 for child in soup.head.descendants: print(child) except: print("fail fail fail") if __name__ == "__main__": url = "http://www.baidu.com" handle_url(url)

上行遍歷：

import requests from bs4 import BeautifulSoup def handle_url(url): try: r = requests.get("http://www.baidu.com") r.raise_for_status() if r.encoding == 'ISO-8859-1': r.encoding = r.apparent_encoding demo = r.text soup = BeautifulSoup(demo, 'html.parser') # html標簽的父節點是它自己 print(soup.html.parent) # soup本身也是一種特殊的標簽節點，它的父節點是None空 print(soup.parent) # title標簽的父節點 print(soup.title.parent) # 遍歷title標簽的先輩節點 for parent in soup.title.parents: if parent is None: print(parent) else: print(parent.name) except: print("fail fail fail") if __name__ == "__main__": url = "http://www.baidu.com" handle_url(url)

平行遍歷：：必須發生在同一個父節點下

import requests from bs4 import BeautifulSoup def handle_url(url): try: r = requests.get("http://www.baidu.com") r.raise_for_status() if r.encoding == 'ISO-8859-1': r.encoding = r.apparent_encoding demo = r.text soup = BeautifulSoup(demo, 'html.parser') # title的前一個平行節點 print(soup.title.previous_sibling) # link的下一個平行節點 print(soup.link.next_sibling) # 遍歷meta標簽的所有的后續平行節點 for sibling in soup.meta.next_siblings: print(sibling) # 遍歷title標簽的所有前續的平行節點 for sibling in soup.title.previous_siblings: print(sibling) except: print("fail fail fail") if __name__ == "__main__": url = "http://www.baidu.com" handle_url(url)

使用BeautifulSoup庫解析htm、xml文檔

HTML XML

標簽：使用 BeautifulSoup庫解析

系統字體問題（win10系統怎么設置密碼）">WIN10系統字體問題（win10系統怎么設置密碼）

750 2022-05-29

格式的應用（應用文標題的格式）">標題格式的應用（應用文標題的格式）

750 2022-05-29

快遞錄入時間表（快遞收寄時間）

750 2022-05-29

<fieldset id="0gwoo"></fieldset>

<del id="0gwoo"></del>

<strike id="0gwoo"></strike>

<del id="0gwoo"></del>

使用 BeautifulSoup庫 解析htm、xml文檔

系統字體問題（win10系統怎么設置密碼）">WIN10系統字體問題（win10系統怎么設置密碼）

格式的應用（應用文標題的格式）">標題格式的應用（應用文標題的格式）

快遞錄入時間表（快遞收寄時間）

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接

使用BeautifulSoup庫解析htm、xml文檔

系統 字體問題（win10系統怎么設置密碼）">WIN10系統 字體問題（win10系統怎么設置密碼）

格式的應用（應用文標題的格式）">標題格式的應用（應用文標題的格式）

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

友情鏈接

使用 BeautifulSoup庫解析htm、xml文檔

系統字體問題（win10系統怎么設置密碼）">WIN10系統字體問題（win10系統怎么設置密碼）