<ul id="8qiqy"></ul>

<fieldset id="8qiqy"></fieldset>

【Python 技能樹共建】lxml 模塊 R2

網(wǎng)友投稿 867 2022-05-30

Python lxml 模塊

lxml 庫是一款 Python 數(shù)據(jù)解析庫，參考重要文檔在 https://lxml.de/，項(xiàng)目開源地址在：https://github.com/lxml/lxml，在一頓檢索之后，發(fā)現(xiàn) lxml 沒有中文相關(guān)手冊(cè)，不過好在英文文檔閱讀難度不大，我們可以直接進(jìn)行學(xué)習(xí)。

怎么用

lxml.etree

縱覽之前的博客內(nèi)容，出場(chǎng)率最高的就是 lxml.etree ，其次就是 Element 對(duì)象，我們?cè)诮馕鰯?shù)據(jù)的時(shí)候，大量的代碼都是基于 Element 對(duì)象的 API 實(shí)現(xiàn)。

在爬蟲代碼采集過程中，通過 etree.HTML 直接將字符串實(shí)例化為 element 對(duì)象。

import requests from lxml import etree res = requests.get("http://www.jsons.cn/zt/") html = res.text root_element = etree.HTML(html) print(root_element) print(root_element.tag)

上述代碼輸出內(nèi)容如下所示：

html

【Python技能樹共建】lxml 模塊 R2

其中需要注意的是 Element 后面的 html，該字符串表示對(duì)象的標(biāo)簽名為 html，如果使用下述代碼：

print(root_element[1])

上述內(nèi)容得到的是，即 body 標(biāo)簽，同樣的操作可以使用子元素獲取。

print("*"*100) for child in root_element: print(child.tag)

上述代碼輸出的內(nèi)容為：

head body

該輸出表示在 html 標(biāo)簽中，只包含head 與 body 標(biāo)簽，實(shí)際情況也確實(shí)如此，為了驗(yàn)證，你可以在循環(huán)中繼續(xù)嵌套一層。

此時(shí)輸出的內(nèi)容就變得豐富了需求，如下圖所示：

你也可以通過 etree.tostring(element對(duì)象) 直接將該對(duì)象轉(zhuǎn)換為字符串進(jìn)行輸出。

for child in root_element: for item in child: print(item.tag) print(etree.tostring(item))

XPath

lxml 庫可以配合其他的解析引擎進(jìn)行工作，首次接觸的就是 XPath，關(guān)于 XPath 相關(guān)的知識(shí)，我們后續(xù)博客會(huì)細(xì)化學(xué)習(xí)，本節(jié)課依舊從 lxml 的角度出發(fā)，為你介紹。

在爬蟲代碼編寫中，直接使用 html.xpath("xpath表達(dá)式") 即可獲取目標(biāo)數(shù)據(jù)，例如獲取網(wǎng)頁 title。

print(root_element.xpath('//title'))

獲取網(wǎng)頁所有文本：

print(root_element.xpath('string()'))

獲取到 element 對(duì)象之后，可調(diào)用 text 屬性，獲取對(duì)應(yīng)文本，在使用的時(shí)候，需要注意使用 XPath 獲取到的 element 對(duì)象，都是列表。

title_element = root_element.xpath('//title') print(title_element[0].text)

在 lxml 中，還內(nèi)置了一款簡(jiǎn)單的類似 XPath 的路徑語言，稱為 ElementPath，例如查詢 title，需要從 head 開始檢索，否則返回 None。

print(root_element[0].find("title"))

官方提供的方法如下：

iterfind()：返回查找到的數(shù)據(jù)，迭代器形式返回；

findall()：返回匹配到的列表；

find()：返回第一個(gè)匹配到的數(shù)據(jù)；

findtext()：返回匹配到的文本數(shù)據(jù)，第一個(gè)。

lxml 擴(kuò)展知識(shí)

lxml 除了可以配合 XPath 實(shí)現(xiàn)數(shù)據(jù)解析外，還可以與 cssselect ，BeautifulSoup，html5lib 配合使用，這部分在后續(xù)的案例中，將逐步進(jìn)行展開。

lxml 在爬蟲領(lǐng)域，更多的是在提取數(shù)據(jù)，因此較于該庫本身，掌握 XPath 等解析表達(dá)式的寫法更加重要。

鑒于該庫手冊(cè)沒有被翻譯，后期可以嘗試將其翻譯為中文。

HTML Python

版權(quán)聲明：本文內(nèi)容由網(wǎng)絡(luò)用戶投稿，版權(quán)歸原作者所有，本站不擁有其著作權(quán)，亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容，請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理，核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。

標(biāo)簽：Python 技能共建

相關(guān)文章

辦公 自動(dòng)化(三) | 借助服務(wù)器定時(shí)爬數(shù)據(jù)發(fā)郵件">python辦公 自動(dòng)化(三) | 借助服務(wù)器定時(shí)爬數(shù)據(jù)發(fā)郵件

867 2022-05-30

Python3 網(wǎng)絡(luò)爬蟲開發(fā)實(shí)戰(zhàn)] 1.4.3-Redis 的安裝">[Python3 網(wǎng)絡(luò)爬蟲開發(fā)實(shí)戰(zhàn)] 1.4.3-Redis 的安裝

867 2022-05-30

Python 庫的安裝">Elasticsearch Python 庫的安裝

867 2022-05-30

<ul id="iccgs"></ul>

【Python 技能樹共建】lxml 模塊 R2

辦公 自動(dòng)化(三) | 借助服務(wù)器定時(shí)爬數(shù)據(jù)發(fā)郵件">python辦公 自動(dòng)化(三) | 借助服務(wù)器定時(shí)爬數(shù)據(jù)發(fā)郵件

Python3 網(wǎng)絡(luò)爬蟲開發(fā)實(shí)戰(zhàn)] 1.4.3-Redis 的安裝">[Python3 網(wǎng)絡(luò)爬蟲開發(fā)實(shí)戰(zhàn)] 1.4.3-Redis 的安裝

Python 庫的安裝">Elasticsearch Python 庫的安裝

推薦文章

企業(yè)生產(chǎn)管理是什么，企業(yè)生產(chǎn)管理軟件

進(jìn)盤點(diǎn)進(jìn)銷存軟件排行榜前十名

進(jìn)銷存系統(tǒng)哪個(gè)簡(jiǎn)單好用？進(jìn)銷存系統(tǒng)優(yōu)點(diǎn)

工廠生產(chǎn)管理（工廠生產(chǎn)管理流程及制度）

生產(chǎn)管理軟件，機(jī)械制造業(yè)生產(chǎn)管理，制造業(yè)生產(chǎn)過程管理軟件

進(jìn)銷存軟件和ERP有什么區(qū)別？進(jìn)銷存與erp軟件理解

進(jìn)銷存如何進(jìn)行庫存管理

如何利用excel制作銷售訂單管理系統(tǒng)？

數(shù)據(jù)庫訂單管理系統(tǒng)有哪些功能？數(shù)據(jù)庫訂單管理系統(tǒng)怎么設(shè)計(jì)？

什么是數(shù)據(jù)庫管理系統(tǒng)？

最近發(fā)表

熱評(píng)文章

零代碼開發(fā)是什么？2022低代碼平臺(tái)排行榜">零代碼開發(fā)是什么？2022低代碼平臺(tái)排行榜

進(jìn)銷存庫存管理 系統(tǒng)（智慧進(jìn)銷存）">智能進(jìn)銷存庫存管理系統(tǒng)（智慧進(jìn)銷存）

在線文檔哪家強(qiáng)？8款在線文檔編輯軟件推薦">在線文檔哪家強(qiáng)？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡(jiǎn)單的價(jià)格表?

系統(tǒng)的功能有哪些？餐飲服務(wù)系統(tǒng)的構(gòu)成及工作程序">連鎖餐飲管理系統(tǒng)的功能有哪些？餐飲服務(wù)系統(tǒng)的構(gòu)成及工

進(jìn)銷存庫存管理盤點(diǎn)">簡(jiǎn)單進(jìn)銷存庫存管理盤點(diǎn)

友情鏈接