【云圖說】第235期 DDS讀寫兩步走 帶您領略只讀節點的風采
1748
2025-03-31
在企查查查詢企業信息的時候,得到了一些word文件,里面有些控股企業的數據放在表格里,需要我們將其提取出來。
word文件看起來很復雜,不方便進行結構化。實際上,一個word文檔中大概有這么幾種類型的內容:paragraph(段落),table(表格),character(字符)。我現在要解析的word文檔中,基本都是段落和表格,本文主要來講一下如何從word中解析出表格,并將表格信息進行結構化。
要想使用python解析word文件,我們可以使用包docx,首先我們需要安裝它。
1
pip install python-docx
安裝完成后,我們需要讀取word文件,代碼大致如下:
1
2
3
4
5
6
import docx
from docx import Document
docFile = '國家電網有限公司.docx'
Document = Document(docFile) #讀入文件
tables = document.tables #獲取文件中的表格集
上面的代碼中,tables已經是word文件中所有的table構成的list,我要尋找的表格2.6是word文件中的第9個table,可以這樣讀取。
1
2
3
4
5
6
table = tables[8]#獲取文件中的第9個表格
for i in range(1, len(table.rows)):#從表格第二行開始循環讀取表格數據
idNum = table.cell(i,0).text #序號
companyName = table.cell(i,1).text ?#控股企業名稱
investmentRate = table.cell(i,2).text ? #投資比例
stock= table.cell(i,3).text ?#股權鏈
這里已經將表2.6的每一列每一行遍歷啦,之后可以將抽取出來的4個參數寫到CSV或插入數據庫中。
====================================================================
本文發表在李思原博客“機器在學習”
=====================================================================
python
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。