使用華為云鯤鵬部署Tesseract 工具,教你十分鐘搞定上萬字的文字識別,千萬不要錯過!
看視頻,還可參與回帖互動領(lǐng)好禮活動!快來參與吧:
https://bbs.huaweicloud.com/forum/thread-63290-1-1.html
文字識別在生活中應用的場景很多,比如常見的汽車牌照識別,實名認證中對于身份證ID的自動識別,輸入法的手寫識別等等。
實現(xiàn)文字識別的途徑主要有三種,一個是我們自己手寫代碼,二是使用開源代碼,三是調(diào)用云廠商的云服務。
第一種,我們自己手寫代碼難度較大。
第二種,給大家介紹。
第三種,調(diào)用云服務的方式。
最常用的文字識別引擎之一,就是目前由google維護的tesseract文字識別引擎,并且是開源的。
tesseract地址:https://github.com/tesseract-ocr/tesseract
我的tesseract是部署在云服務器上,當然大家也可以在本地電腦下載編譯tesseract,沒有任何差別。放在云服務器的好處就是,在其他任何城市使用任意一部手機或者電腦就可以遠程使用該文字識別功能,不用重新配置。否則每個新設備都要重新配置編譯tesseract,非常麻煩。
獲取鯤鵬彈性云服務器
瀏覽器搜索“華為云”進入華為云官網(wǎng),注冊并且實名認證。
獲取途徑有兩個,一是免費試用,二是購買使用
免費試用點擊:首頁->免費試用,選擇 鯤鵬彈性云服務器KC1,每個賬號只能免費試用一次。
購買使用點擊:產(chǎn)品->彈性云服務器ECS,選擇通用計算增強型KC1
獲取成功后,點擊控制臺->彈性云服務器ECS,就可以看到我們的鯤鵬彈性云服務器,并且可以遠程登錄進行操作。系統(tǒng)裝的是CentOS,用linux指令操作,也可以裝windows系統(tǒng),但是要購買2G內(nèi)存以上的規(guī)格。
部署tesseract
華為云官方文檔:https://www.huaweicloud.com/kunpeng/software/tesseract.html
部署的本質(zhì)就是下載tesseract源代碼以及依賴庫,然后使用編譯器編譯生成可執(zhí)行文件, 該可執(zhí)行文件就可以直接識別文字圖片了,原理非常簡單。
華為云官網(wǎng)為我們提供了完整的部署步驟。
可以通過華為云端實驗室練習部署過程。首頁點擊開發(fā)者->云端實驗室,找到使用華為云鯤鵬彈性云服務器部署文字識別Tesseract實驗。點擊開始實驗,整個過程直接復制粘貼左側(cè)的指令,依次執(zhí)行即可。整個過程與在云服務器操作一樣。
OCR 鯤鵬
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。