<ul id="gg00e"></ul>

<fieldset id="gg00e"></fieldset>

<tfoot id="gg00e"></tfoot>

[爬蟲]python下的xpath清洗數據之html數據清洗

網友投稿 1201 2025-03-31

源起

分析

解決

總結

源起

現在我們面對一些爬蟲數據，特別是對于web網頁的爬取的時候，網頁總有一些不規整的數據來導致拿數據的麻煩，比如如下這種

111

222

333

444

555

[爬蟲]python下的xpath清洗數據之html數據清洗

111

222

333

444

555

我只想拿到111,222,333,444,555這些有效的信息，因為有些p標簽里面會引入script元素，導致我們還要在后期清洗，比較麻煩

分析

首先拿到問題我們就可以本能的想至少兩種方式，如果當成是文本處理，使用排除掉script這些文本，另外我們可以直接移除掉這些script元素，這里我不推薦使用正則，畢竟我們拿到一個特定的環境，比如lxml 庫就可以很輕松的處理這些文檔，使用正則后期維護困難，另外，你過兩個星期之后你也不會知道你當時寫的正則是什么意思

解決

還是直接上代碼吧

# -*- coding: utf-8 -*- from lxml import html from lxml.html.clean import Cleaner html_str = """

111111

222222

333333

44444

665666

""" def clean_script(): cleaner = Cleaner() cleaner.javaScript = True # This is True because we want to activate the javaScript filter cleaner.style = True # clean the style element tree = html.fromstring(html_str) print html.tostring(cleaner.clean_html(tree)) def remove_node(): tree = html.fromstring(html_str) ele = tree.xpath('//script') for e in ele: e.getparent().remove(e) print html.tostring(tree) if __name__ == '__main__': remove_node()

# -*- coding: utf-8 -*-

from lxml import html

from lxml.html.clean import Cleaner

html_str = """

111111

222222

333333

44444

665666

"""

def clean_script():

cleaner = Cleaner()

cleaner.javascript = True??# This is True because we want to activate the javascript filter

cleaner.style = True # clean the style element

tree = html.fromstring(html_str)

print html.tostring(cleaner.clean_html(tree))

def remove_node():

tree = html.fromstring(html_str)

ele = tree.xpath('//script')

for e in ele:

e.getparent().remove(e)

print html.tostring(tree)

if __name__ == '__main__':

remove_node()

輸出結果

111111

222222

333333

44444

665666

111111

222222

333333

44444

665666

總結

本次主要介紹了常見的html 數據清洗方法，介紹了lxml 一些常用操作和方法，希望對于大家清洗數據的時候有幫助

HTML Python

標簽：javaScript 解決一些

一些干貨命令及快捷鍵（跳轉最后一行，跳轉行末等）~舒服！！！">vi/vim的一些干貨命令及快捷鍵（跳轉最后一行，跳轉行末等）~舒服！！！

1201 2025-03-31

接口測試 --apipost 如何自定義變量">接口測試 --apipost 如何自定義變量

1201 2025-03-31

excel表格中的折線圖突出最高值有什么方法">excel表格中的折線圖突出最高值有什么方法

1201 2025-03-31

<ul id="asg2y"></ul>

<ul id="asg2y"></ul>

<strike id="asg2y"></strike>

[爬蟲]python下的xpath清洗數據之html數據清洗

一些干貨命令及快捷鍵（跳轉最后一行，跳轉行末等）~舒服！！！">vi/vim的一些干貨命令及快捷鍵（跳轉最后一行，跳轉行末等）~舒服！！！

接口測試 --apipost 如何自定義變量">接口測試 --apipost 如何自定義變量

excel表格中的折線圖突出最高值有什么方法">excel表格中的折線圖突出最高值有什么方法

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接