亚洲欧洲日韩综合在线,亚洲熟妇无码八V在线播放,亚洲最大av无码网址

萬字xpath詳細教程，手把手系列

網友投稿 957 2022-05-30

@[TOC]

一、必看內容！??！

1）簡短介紹

XPath 是一種用于尋址 XML 文檔部分的語言。它在 XSLT 中使用并且是 XQuery 的子集。這個庫也可用于大多數其他編程語言。

2）必備知識

了解基本的html和xml語法和格式

沒有了，如果你不會html和xml，超過2000，我出一篇html詳細教程，至于怎么達到2000贊，看各位粉絲了。

3）為什么我要寫這篇文章？

在我前面的幾十篇文章，寫了上百萬字把python的所有基礎已經講得很明白了，不管你是不是小白，跟著學都能學會，同時在我的粉絲群，我還會對教程中的問題進行答疑，所以包教包會的口號，我從來不是吹的。

這里是我的基礎教程專欄：python全?；A詳細教程專欄系列

當然，如果你對qq機器人制作感興趣請查看專欄：qq機器人制作詳細教程專欄

這兩個專欄，我為什么放在一起？第一個專欄是基礎教程，第二個專欄是進階，所以你在不會基礎之前，請不要冒然學習機器人制作。

說了半天，我還沒說為什么寫這一篇的原因，前面的基礎我已經差不多寫完了，基礎不會的自己去看我專欄，上百萬字寫基礎，我已經很用心教大家了。基礎過后，我們即將開始學爬蟲，因此xpath你不得不掌握。認真跟著我學，多看幾天就會了。

4）強烈推薦教程專欄

python全棧基礎教程系列

qq機器人小白教程系列

matlab數學建模小白到精通系列

Linux操作系統教程

SQL入門到精通教程系列

其它專欄，看你自己個人興趣，這五個專欄我是主打，并是我強烈推薦。

有任何問題可以粉絲群問我：

428335755

二、開始使用xpath

2.1 常見的 HTML 操作

如果有一段html如下：

link

Element One

Element Two

在整個頁面中查找具有特定 id 的元素：

//*[@id='divone'] # 返回

在特定路徑中查找具有特定 id 的元素：

/html/body/div/p[@id='enclosedone'] # 返回

Element One

選擇具有特定 id 和 class 的元素：

//p[@id='enclosedone' and @class='common'] #返回

Element One

選擇特定元素的文本：

//*[@id='enclosedone']/text() # 返回 Element One

2.2 常見XML操作

比如有如下xml：

Text 1 Text 2 Text 3 Text 4

用xpath

/r/e

將選擇此元素：

用xpath：

/r/f/text()

將選擇具有此字符串值的文本節點：

"Text 1"

而這個 XPath：

string(/r/f)

返回同樣是：

"Text 1"

2.3 瀏覽器使用xpath調試

步驟如下：

按F12進入控制臺

按ctrl+F進入搜索框

將自己寫的xpath輸入進去，回車看看能不能匹配到

以我自己的主頁網址為例：

https://blog.csdn.net/weixin_46211269?spm=1000.2115.3001.5343

分析：

鎖定定位為：

user-profile-statistics-num

則xpath寫為：

//div[@class="user-profile-statistics-num"]

以上就是一種簡單的調試xpath方法，難的我就不介紹了，沒必要吧，如果大家覺得有必要，評論區留言，人多我就重新編輯補充。

三、檢查節點是否存在

我們使用布爾來檢查我們寫的xpath是否存在，布爾真是一個很不錯的東西。

3.1 案例一

這里我就構造一個xml如下：

使用布爾來判斷：

boolean(/House//plant)

輸出：

true

說明該路徑正確。

3.2 案例二

假設有這樣一個xml:

4 2 2 1

使用布爾判斷：

boolean(/Animal/tusks)

輸出：

false

說明這個路徑是錯的。

四、檢查節點的文本是否為空

語法：

布爾（路徑到節點/文本（））

字符串（路徑節點）！= ‘’ ”

其他用途：

檢查節點是否存在

檢查參數是否不是數字 (NaN) 或 0

4.1 案例一

假設我構造這樣一個xml：

Dark world

Babadi #0 red evil

用布爾判斷：

boolean(/Deborah/master/text())

或者用string判斷：

string(/Deborah/master) != ''

輸出都為：

true

說明文本不為空。

4.2 案例二

假設我構造這樣一個xml:

Hogwartz

wheatish all good

用布爾判斷：

boolean(/Dobby/master/text())

或者用string判斷：

string(/Dobby/master) != ''

輸出：

false

說明文本為空。

五、通過屬性查詢

說一些比較常見的語法：

/從當前節點選取直接子節點

//從當前節點選取子孫節點

.選取當前節點

…選取當前節點的父節點

@選取屬性

*代表所有

例如：

//title[@lang=’chuan’]

這就是一個 XPath 規則，它就代表選擇所有名稱為 title，同時屬性 lang 的值為 chuan的節點。

5.1 查找具有特定屬性的節點

假設有這樣一個xml:

Milky Way

路徑匹配如下：

/Galaxy/*[@name]

或者：

//*[@name]

輸出：

5.2 通過屬性值的子串匹配來查找節點

假設有如下例子：

Milky Way

路徑：

/Galaxy/*[contains(@name,'Ear')]

值得補充的是,這里的contains函數就是代表包含的意思，這里就是查找Galaxy路徑下，所有name屬性中含有Ear的節點。

如上，我們也可以如下方式匹配：

//*[contains(@name,'Ear')]

雙引號也可以用來代替單引號：

/Galaxy/*[contains(@name, "Ear")]

輸出：

5.3 通過屬性值的子字符串匹配查找節點（不區分大小寫）

假設有xml如下：

Milky Way

路徑

/Galaxy/*[contains(lower-case(@name),'ear')]

這里又出現了新的東西，加入 lower-case() 函數就是來保證我們可以包括所有的大小寫情況。

路徑

/Galaxy/*[contains(lower-case(@name),'ear')]

或者

//*[contains(lower-case(@name),'ear')]

或者，使用雙引號中的字符串：

//*[contains(lower-case(@name), "ear")]

輸出

5.4 通過匹配屬性值末尾的子字符串查找節點

假設有xml如下：

Milky Way

路徑

/Galaxy/*[ends-with(lower-case(@type),'tar')]

補充：這里又出現了新的函數，ends-with就是匹配以xx結尾。

或者

//*[ends-with(lower-case(@type),'tar')]

輸出

5.5 通過匹配屬性值開頭的子字符串查找節點

假設有這個xml：

Milky Way

路徑

/Galaxy/*[starts-with(lower-case(@name),'ear')]

補充：這里又出現了新的函數，starts-with就是匹配以什么開頭。

或者

//*[starts-with(lower-case(@name),'ear')]

輸出

5.6 查找具有特定屬性值的節點

假設有這個xml:

Milky Way

路徑

/Galaxy/*[@name='Sun']

補充：這里就是我開頭說到的，星號代表所有，@用來選取屬性

或者

//*[@name='Sun']

輸出

六、查找包含特定屬性的元素

6.1 查找具有特定屬性的所有元素（1）

假設有xml如下：

xpath匹配：

/root/element[@foobar]

6.2 查找具有特定屬性值的所有元素（2）

假設有xml如下：

以下 XPath 表達式：

/root/element[@foobar = 'hello_world']

將返回

也可以使用雙引號：

/root/element[@foobar="hello_world"]

粉絲群：970353786

七、查找包含特定文本的元素

假設有xml如下：

hello hello Hello, I am an example .

以下 XPath 表達式：

//*[text() = 'hello']

將返回hello元素，但不返回元素。這是因為該元素包含hello文本周圍的空格。

要同時檢索and ，可以使用：

//*[normalize-space(text()) = 'hello']

補充：這里又多了新的函數，normalize-space作用就是去除空白的意思。

要查找包含特定文本的元素，您可以使用該contains函數。以下表達式將返回元素：

//example[contains(text(), 'Hello')]

如果要查找跨越多個子/文本節點的文本，則可以使用.代替text()。.指元素及其子元素的整個文本內容。

例如：

//example[. = 'Hello, I am an example .']

要查看多個文本節點，您可以使用：

//example//text()

這將返回：

“hello， ”

“I am an example”

“.”

為了更清楚地看到一個元素的整個文本內容，可以使用該string函數：

string(//example[1])

要不就

string(//example)

依然返回：

Hello, I am an example .

八、多次強調的語法

8.1 XPath 軸的語法

現在我們要補充新的東西，又要開始記住了：

ancestor 選取當前節點的所有先輩（父、祖父等）。 ancestor-or-self 選取當前節點的所有先輩（父、祖父等）以及當前節點本身。 attribute 選取當前節點的所有屬性。 child 選取當前節點的所有子元素。 descendant 選取當前節點的所有后代元素（子、孫等）。 descendant-or-self 選取當前節點的所有后代元素（子、孫等）以及當前節點本身。 following 選取文檔中當前節點的結束標簽之后的所有節點。 namespace 選取當前節點的所有命名空間節點。 parent 選取當前節點的父節點。 preceding 選取文檔中當前節點的開始標簽之前的所有節點。 preceding-sibling 選取當前節點之前的所有同級節點。 self 選取當前節點。

8.2 XPath選取節點語法

為什么我在這里又來強調一下？因為很重要！

nodename 選取此節點的所有子節點。 / 從根節點選取。 // 從匹配選擇的當前節點選擇文檔中的節點，而不考慮它們的位置。 . 選取當前節點。 .. 選取當前節點的父節點。 @ 選取屬性。

在下面的表格中，列出了一些路徑表達式以及表達式的結果：

bookstore 選取 bookstore 元素的所有子節點。 /bookstore 選取根元素 bookstore。注釋：假如路徑起始于正斜杠( / )，則此路徑始終代表到某元素的絕對路徑！ bookstore/book 選取屬于 bookstore 的子元素的所有 book 元素。 //book 選取所有 book 子元素，而不管它們在文檔中的位置。 bookstore//book 選擇屬于 bookstore 元素的后代的所有 book 元素，而不管它們位于 bookstore 之下的什么位置。 //@lang 選取名為 lang 的所有屬性。

8.3 Xpath謂語

謂語用來查找某個特定的節點或者包含某個指定的值的節點。謂語被嵌在方括號中。

看一些例子就知道了：

路徑表達式結果 /bookstore/book[1] 選取屬于 bookstore 子元素的第一個 book 元素。 /bookstore/book[last()] 選取屬于 bookstore 子元素的最后一個 book 元素。 /bookstore/book[last()-1] 選取屬于 bookstore 子元素的倒數第二個 book 元素。 /bookstore/book[position()<3] 選取最前面的兩個屬于 bookstore 元素的子元素的 book 元素。 //title[@lang] 選取所有擁有名為 lang 的屬性的 title 元素。 //title[@lang='eng'] 選取所有 title 元素，且這些元素擁有值為 eng 的 lang 屬性。 /bookstore/book[price>35.00] 選取 bookstore 元素的所有 book 元素，且其中的 price 元素的值須大于 35.00。 /bookstore/book[price>35.00]/title 選取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值須大于 35.00。

8.4 Xpath選取未知節點

XPath 通配符可用來選取未知的 XML 元素。

通配符描述 * 匹配任何元素節點。 @* 匹配任何屬性節點。 node() 匹配任何類型的節點。

在下面的表格中，我們列出了一些路徑表達式，以及這些表達式的結果：

路徑表達式結果 /bookstore/* 選取 bookstore 元素的所有子元素。 //* 選取文檔中的所有元素。 //title[@*] 選取所有帶有屬性的 title 元素。

8.5 Xpath選取若干路徑

通過在路徑表達式中使用“|”運算符，您可以選取若干個路徑。

在下面的表格中，列出了一些路徑表達式，以及這些表達式的結果：

路徑表達式結果 //book/title | //book/price 選取 book 元素的所有 title 和 price 元素。 //title | //price 選取文檔中的所有 title 和 price 元素。 /bookstore/book/title | //price 選取屬于 bookstore 元素的 book 元素的所有 title 元素，以及文檔中所有的 price 元素。

九、獲取相對于當前節點的節點

假設我們有xml如下：

Harry Potter 29.99 Learning XML 39.95

9.1 基本語法

其實這些內容，大可不必都掌握，但是你一定要知道，你想用的時候，再來本文查一下會用就行。

這是相關實例：

問題是：這里提到的祖先，孩子，兄弟，父母節點，大家知道嗎？如果你會html的話，你應該知道。超過2000贊我可以出一篇html的教程，本篇我就暫時默認大家知道了。

9.2 尋找祖先節點

假設有xml如下：（這里已經很形象說明了祖先，孩子，兄弟，父母節點的關系了，仔細看看）

路徑

//Me/ancestor::node()

輸出：

9.4 尋找兄弟節點

假設有xml如下：

路徑：

//Me/following-sibling::brother

輸出：

9.5 尋找祖父節點（2）

假設有xml如下：

路徑

//Me/ancestor::GrandFather

或者

//Me/parent::node()/parent::node()

輸出：

9.6 尋找父母節點

還是假設xml如下：

路徑

//Me/ancestor::Dad

或者

//Me/parent::node()

輸出：

9.7 尋找當前節點之后的所有節點

假設有xml如下：

路徑

//Avatar[@name='Parashurama']/following-sibling::node()

輸出：

9.8 尋找當前節點之前的所有節點

假設有xml如下：

路徑

//Avatar[@name='Parashurama']/preceding-sibling::node()

輸出：

9.9 實例一

獲取 House 中的所有房間名為 Room 的孩子。

假設有xml如下：

路徑

/House/child::Room

或者

/House/*[local-name()='Room']

輸出：

9.10 實例二

獲得 House 中的所有房間（不考慮位置）。

假設有xml如下：

路徑

/House/descendant::Room

輸出

十、獲取節點數

我們主要用到count函數，實戰中我們來感悟。

10.1 實例一

假設有xml如下：

路徑

count(/Goku/child)

輸出

2.0

10.2 實例二

假設有如下xml

路徑

count(/House//plant)

輸出

4.0

十一、根據子節點數選擇節點

11.1 實例一

假設有xml如下：

Ashley Smith A B A Bill Edwards A

選擇至少記錄了 2 個成績的所有學生

//Student[count(./Grades/*) > 1]

輸出

Ashley Smith A B A

11.2 實例二

假設有xml如下：

Ashley Smith A B A Bill Edwards A

選擇所有記錄了 Exam2 分數的學生

//Student[./Grades/Exam2]

或者

//Student[.//Exam2]

輸出

Ashley Smith A B A

十二、選擇名稱等于或包含某個字符串的節點

語法如下：

1.在特定節點內：

{path-to-parent}/name()='搜索字符串']

2.文檔中的任何位置：

//*[name()='搜索字符串']

12.1 搜索名稱包含 Light 的節點

假設有xml如下：

Firefly Insect Fire Natural element flint Sun Star helium

路徑

/Data/*[contains(local-name(),"Light")]

或者

//*[contains(local-name(),"Light")]

輸出：

Firefly Insect Fire Natural element flint Sun Star helium

12.2 搜索名稱以 Ball 結尾的節點

假設xml如下：

20 Archie Theron Wild cats David Perry 24 Tim Jose Avengers Lindsay Rowen 22 Rahul Mehra Playerz Amanda Ren

路徑

/College/*[ends-with(local-name(),"Ball")]

或者

//*[ends-with(local-name(),"Ball")]

輸出：

20 Archie Theron Wild cats David Perry 24 Tim Jose Avengers Lindsay Rowen 22 Rahul Mehra Playerz Amanda Ren

12.3 搜索名稱以 Star 開頭的節點

萬字xpath詳細教程，手把手系列

假設xml如下：

20 Archie Theron Wild cats David Perry 100 Tim Jose VII Lindsay Rowen

路徑

/College/*/*[starts-with(local-name(),"Star")]

或者

//*[starts-with(local-name(),"Star")]

輸出

David Perry Lindsay Rowen

12.4 搜索名稱為 Light、Device 或 Sensor 的節點

假設xml如下：

sun satellite human Milky Way

路徑

/Galaxy/*[local-name()='Light' or local-name()='Device' or local-name()='Sensor']

說白了就是多了幾個or而已。

或者

//*[local-name()='Light' or local-name()='Device' or local-name()='Sensor']

輸出

sun satellite human

12.5 搜索名稱為 light 的節點（不區分大小寫）

假設xml如下：

sun satellite human Milky Way

路徑

/Galaxy/*[lower-case(local-name())="light"]

或者

//*[lower-case(local-name())="light"]

輸出

sun

12.6 搜索名稱為 light 的節點（不區分大小寫）

假設xml如下：

sun satellite human Milky Way

路徑

/Galaxy/*[lower-case(local-name())="light"]

或者

//*[lower-case(local-name())="light"]

輸出

sun

十三、粉絲福利

前期已經送出很多基礎書和數據分析書籍，本次送人工智能的書籍如下：

參與活動方式：

三連本篇文章（評論），截好圖

加入粉絲群：970353786私聊我（群主），截圖發給我

送書僅在于個人心意，以此鼓勵大家學習，只隨機送兩本。這本書還不錯，喜歡的也可以去京東購買。

十四、總結

這位大佬也寫了一篇xpath:十五分鐘掌握python爬蟲XPath庫感興趣可以對照我的看看。

python全?；A專欄我已經講完大部分基礎，現在我們進軍爬蟲，本篇內容希望大家一定掌握。超過2000，我補一篇html網頁基礎。寫了我周末兩個通宵，希望大家這次支持，謝謝。至于我送書活動，貨真價實，僅代表個人心意，鼓勵大家學習。

公眾號發送：xpath 即可領取本篇文章的電子版。

XML

標簽：萬字 XPath 詳細教程

Excel2016打印預覽表格的教程是什么（excel2016怎么看打印預覽）">Excel2016打印預覽表格的教程是什么（excel2016怎么看打印預覽）

957 2022-05-30

教程2(配置文件)">mybatis教程2(配置文件)

957 2022-05-30

數值求和如何屏蔽掉時間

957 2022-05-30

萬字xpath詳細 教程，手把手系列

Excel2016打印預覽表格的教程是什么（excel2016怎么看打印預覽）">Excel2016打印預覽表格的教程是什么（excel2016怎么看打印預覽）

教程2(配置文件)">mybatis教程2(配置文件)

數值求和如何屏蔽掉時間

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

萬字xpath詳細教程，手把手系列

Excel2016打印預覽表格的教程是什么（excel2016怎么看打印預覽）">Excel2016打印預覽表格的教程是什么（excel2016怎么看打印預覽）

教程2(配置文件)">mybatis教程2(配置文件)

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

萬字xpath詳細教程，手把手系列

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工