<tfoot id="8cisg"></tfoot>

<strike id="8cisg"></strike>

Pandas 完美 讀取 html 格式的Excel所有隱藏數據

網友投稿 1031 2022-05-30

大家好，我是小小明。

你是否有遇到這樣的情況在一些網站導出Excel文件后，用pandas卻無法直接以Excel方式讀取。

本文就將遇到的這種情況，帶你去完整的解析讀取。

問題分析

有一個文件用Excel軟件打開可以看到如下數據：

但嘗試用pandas直接讀?。?/p>

import pandas as pd df = pd.read_excel("明細費用表1.xlsx") df

結果報出：

ValueError: File is not a recognized excel file

這時我們可以考慮一下，這個問題有沒有可能時間是csv等文本格式，于是用文本解析器打開看看：

原來這是一個html文檔，那么我們就可以以純html的方式讀取它了：

但是可以很明顯的看到pandas的網頁讀取，有大量數據并沒有讀取到。

這時候我們可以考慮使用pywin32轉換格式，也可以通過網頁解析直接提取需求的數據。

網頁結構分析

首先分析一下主要的結構。

首先是表頭：

很明顯Excel表中的隱藏列就是受display:none的CSS樣式控制。

再看看數據行：

可以看到整數類型的數據都存在于屬性x:num中，而不是內部的文本節點中。

下面我們使用xpath來解析數據：

解析數據

經時間測試發現，帶有x:的命名空間下的數據，幾乎無法通過正常的方法解析獲取，或者說非常麻煩。所以我們一次性去掉所有的x:前綴后，再讀取數據并加載：

import pandas as pd from lxml import etree with open("明細費用表1.xlsx", encoding="u8") as f: html = etree.HTML(f.read().replace("x:", ""))

最終我編寫的解析代碼如下：

header = None data = [] for tr in html.xpath("http://table/tr"): row = [] for td in tr.xpath("./td"): num = td.xpath("./@num") if num and num[0]: row.append(float(num[0])) else: row.append("".join(td.xpath(".//text()"))) if len(row) < 4: continue if header is None: header = row else: data.append(row) df = pd.DataFrame(data, columns=header) df

可以看到這下子，數據就全部都讀取出來了。

解析帶有命名空間xml的標準方法

前面對于xmlns:x="urn:schemas-microsoft-com:office:excel"的命名空間，我沒有找到好的方法解析，只能直接替換原始文本刪除。當對于正常的帶有命名空間的數據xpath還是有標準方法解析的。

比如對于如下xml：

from lxml import etree xml = etree.parse("drawing1.xml") print(etree.tostring(xml, pretty_print=True).decode("utf-8"))

我們希望取出其中的a:blip節點下的r:embed屬性：

namespaces = {"r": "http://schemas.openxmlformats.org/officeDocument/2006/relationships", "a": "http://schemas.openxmlformats.org/drawingml/2006/main"} for e in xml.xpath("http://a:blip", namespaces=namespaces): print(etree.tostring(e).decode("utf-8")) print(e.xpath("./@r:embed", namespaces=namespaces)[0])

rId1 rId2 rId3

可以看到對應的值都順利獲取到。

Pandas完美讀取html格式的Excel所有隱藏數據

HTML

標簽：Pandas 完美讀取 html 格式

格式的應用（應用文標題的格式）">標題格式的應用（應用文標題的格式）

1031 2022-05-30

Excel維恩圖

1031 2022-05-30

返回Excel雙列中的唯一值列表

1031 2022-05-30

<ul id="cgwoo"></ul>

Pandas 完美 讀取 html 格式的Excel所有隱藏數據

格式的應用（應用文標題的格式）">標題格式的應用（應用文標題的格式）

Excel維恩圖

返回Excel雙列中的唯一值列表

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

Pandas完美讀取html格式的Excel所有隱藏數據

格式的應用（應用文標題的格式）">標題格式的應用（應用文標題的格式）

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

Pandas 完美讀取 html 格式的Excel所有隱藏數據

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工