久久亚洲精品无码AV红樱桃,亚洲视频在线视频,久久精品国产亚洲av日韩

from pyquery import PyQuery as pq with open('demo.html', 'r', encoding='utf-8') as f: html = f.read() doc = pq(html) li1 = doc(".li1") print(li1.siblings()) print('針對屬性查找兄弟節點') print(li1.siblings('.li'))

運行之后，效果如下：

獲取節點信息

節點信息包括節點的名稱，屬性，文本，整個節點的HTML代碼以及其節點內部的HTML代碼。下面，博主一一舉例進行獲取：

from pyquery import PyQuery as pq from lxml import etree with open('demo.html', 'r', encoding='utf-8') as f: html = f.read() doc = pq(html) a = doc('.li1') print('節點名稱：', a[0].tag) print("節點屬性：", a[0].get('class')) print("節點屬性：", a.attr('class')) print("節點文本：", a.text()) print("整個節點HTML代碼：", str(etree.tostring(a[0], pretty_print=True, encoding='UTF-8'), 'UTF-8')) print("節點內部HTML代碼：", a.html())

運行之后，效果如下：

需要注意的是，如果需要獲取整個節點的HTML代碼，需要借助lxml庫進行完成，如果獲取的節點的父節點只有它一個子節點，倒是可以通過獲取父節點在獲取內部的HTML代碼獲取整個節點的HTML代碼，但一般來說，一個父節點應該有很多子節點，這么做行不通，目前也沒什么好的辦法解決，只能借助lxml庫。

修改節點

博主記得大學的時候，那時候學校網址很卡，畢業申請網頁總是打不開，就算打開了根本就無法加載全部的網頁信息，提交更是卡著不動。（稍微人多就崩了）

這個時候，博主取巧直接將學校提交網址的源代碼下載了下來，然后將提交的信息全部寫在對應的HTML標簽中，然后直接提交的。

不過，當時博主是手動操作的。如果需要代碼操作，可以借助pyquery庫進行，比如我們可以給一個標簽添加文本，屬性等，對應代碼如下：

from pyquery import PyQuery as pq with open('demo.html', 'r', encoding='utf-8') as f: html = f.read() doc = pq(html) # 添加一個標簽的class屬性值 li = doc('.li1') li.add_class('li') print(doc) # 刪除一個標簽的class屬性值 li.remove_class('li') print(doc) # 修改一個標簽的class屬性值 li.attr('class', 'li123') print(doc) # 修改一個標簽的文本 a = doc('.aaa') a.text('我是修改的值') print(doc) # 修改一個標簽的HTML代碼 a = doc('.aaa') a.html('華為') print(doc) # 刪除一個節點 li.remove() print(doc)

運行結果這里就不放置了，因為代碼每次打印產生了大量數據，大量的圖片在博文堆積，閱讀體驗不好，還請見諒。感興趣的自己復制運行查看。

不過，需要特別注意一個點，text()方法是替換文本，如果替換的是HTML代碼需要使用html()方法，如果text()替換html代碼，會導致<變成<。

偽類選擇器

pyquery庫之所以CSS選擇器非常強大，是因為其支持多種多樣的偽類選擇器。例如，選擇第1個節點，最后一個節點，索引為奇數的節點，索引為偶數的節點等。

這些都可以通過pyquery庫的CSS選擇器直接操作。下面，我們來舉例說明，示例代碼如下所示：

from pyquery import PyQuery as pq with open('demo.html', 'r', encoding='utf-8') as f: html = f.read() doc = pq(html) # 獲取第一個li節點 li = doc('li:first-child') print(li.html()) # 獲取最后一個li節點 li = doc('li:last-child') print(li.html()) # 獲取第2個li節點 li = doc('li:nth-child(2)') print(li.html()) # 獲取索引小于3的li節點(從0開始,0,1節點) li = doc('li:lt(2)') print(li) # 獲取索引大于1的li節點(從0開始,只有2節點大于0，也就是第3個li) li = doc('li:gt(1)') print(li) # 選擇奇數位的li節點 li = doc('li:nth-child(2n+1)') print(li) # 選擇偶數位的li節點 li = doc('li:nth-child(2n)') print(li) # 選取文本內容包含CSND的所有li節點 li = doc('li:contains(CSDN)') print(li) # 選取文本內容包含CSND的所有節點 li = doc(':contains(CSDN)') print(len(li))

運行結果太多，這里也不展示運行結果。具體的結果與代碼注釋一模一樣。pyquery庫到這里就已經全部講解完成。下面，將通過pyquery庫進行實戰測驗。

實戰：抓取ZOL熱門手機排行榜

首先，我們來查看其網頁的源代碼，看看這個榜單的內容在哪個標簽中。如下圖所示：

可以看到，我們的手機熱榜在class等于section的div標簽中，同時class等于rank-list__item clearfix才是每行的榜單內容。所以，我們可以直接獲取class等于rank-list__item clearfix的所有div然后遍歷。

from pyquery import PyQuery as pq from lxml import etree import requests url = "https://top.zol.com.cn/compositor/57/cell_phone.html" headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } result = requests.get(url=url, headers=headers) doc = pq(result.text) result = doc('.section') divs = result('.rank-list__item')

接著，我們需要獲取每個div榜單里面的信息，比如排名，手機名稱，價位等等。我們先來看看這些數據到底在哪些標簽中。

如上圖所示，class=rank__number的div是其排名，class=rank__name的div下的a標簽是手機的名稱以及鏈接，class=rank__price的div是其價格。

知道了這些，我們可以直接上代碼了，不過需要注意的是，第一名的排行顯示的是一個皇冠，并沒有排行的數字。所以獲取不到排行的數字。

當然，本身列表就是順序的，你可以自己遍歷數字從1開始排即可，根本不需要獲取class=rank__number的內容。不過這里我們還是獲取一下，代碼如下：

from pyquery import PyQuery as pq import requests url = "https://top.zol.com.cn/compositor/57/cell_phone.html" headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } result = requests.get(url=url, headers=headers) doc = pq(result.text) result = doc('.section') divs = result('.rank-list__item') for div in divs.items(): if '' == div('.rank__number').text().strip(): print("手機排名：", 1) else: print("手機排名：", div('.rank__number').text()) print("手機名稱：", div('.rank__name a').text()) print("手機價格：", div('.rank__price').text()) print("手機詳情鏈接：", div('.rank__name a').attr('href')) print()

運行之后，手機的熱門榜單就完全獲取到了，這樣購買手機的參考也就有了，效果如下：

HTML Python 爬蟲

辦公 自動化(三) | 借助服務器定時爬數據發郵件">python辦公 自動化(三) | 借助服務器定時爬數據發郵件

1037 2022-05-30

Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝">[Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝

1037 2022-05-30

Python 庫的安裝">Elasticsearch Python 庫的安裝

1037 2022-05-30

Python 爬蟲：還在 糾結買什么手機？pyquery庫給你參考答案

辦公 自動化(三) | 借助服務器定時爬數據發郵件">python辦公 自動化(三) | 借助服務器定時爬數據發郵件

Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝">[Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝

Python 庫的安裝">Elasticsearch Python 庫的安裝

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接

Python爬蟲：還在糾結買什么手機？pyquery庫給你參考答案

辦公自動化(三) | 借助服務器定時爬數據發郵件">python辦公自動化(三) | 借助服務器定時爬數據發郵件

Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝">[Python3 網絡爬蟲開發實戰] 1.4.3-Redis 的安裝

Python 庫的安裝">Elasticsearch Python 庫的安裝

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

友情鏈接

Python 爬蟲：還在糾結買什么手機？pyquery庫給你參考答案