二十五、爬取毛豆新車的數據
1165
2025-04-02
業務場景:最近接到需求,想實現將一份word文檔,其中特定的文本內容獲取出來,首先想到兩種方法,一種是通過OCR技術,一種是通過模板占位符。
雖然想起來好像是可以實現的,不過ocr技術自己要在短時間實現是不太現實的,要用第三方的會加重項目成本。然后思路是想通過先固定特定的模板,通過一些占位符技術去實現,想法可以,也有在一些付費的第三方應用里看到過,不過實現起來也沒那么容易,特別是想要在一兩天內實現,時間太緊促了,所以只能通過一種小技巧繞過,方法雖然可行,不過不是好的方法
這種方法是先約定模板,要篩選出來的文本固定一種特定的樣式,然后通過通過程序識別出這種文本,還有一種方法是通過書簽,不過網上搜到有第三方jar是要收費的,就不描述了
poi-ooxml是word文檔需要的
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import org.apache.poi.POIXMLDocument; import org.apache.poi.hwpf.HWPFDocument; import org.apache.poi.hwpf.model.StyleDescription; import org.apache.poi.hwpf.model.StyleSheet; import org.apache.poi.hwpf.usermodel.Paragraph; import org.apache.poi.hwpf.usermodel.Range; import org.apache.poi.xwpf.usermodel.XWPFDocument; import org.apache.poi.xwpf.usermodel.XWPFParagraph; import org.apache.poi.xwpf.usermodel.XWPFRun; import java.io.*; import java.util.List; public class WordUtils { public static void main(String[] args) throws Exception { String filePath = "D://test.docx"; printWord(filePath); } public static void printWord(String filePath) throws IOException { XWPFDocument document = new XWPFDocument(POIXMLDocument.openPackage(filePath)); List
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
ps:本博客內容比較簡單,只是自己做下記錄,有時間再探討一下實現,網上實現的很多都是付費的,不建議用本博客的方法,本博客只是自己做下筆記
OCR
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。