文字識(shí)別計(jì)算機(jī)視覺的重要性、基本技術(shù)和最新進(jìn)展(OCR系列一)

      網(wǎng)友投稿 988 2022-05-30

      人類認(rèn)識(shí)了解世界的信息中91%來自視覺,同樣計(jì)算機(jī)視覺成為機(jī)器認(rèn)知世界的基礎(chǔ),也是人工智能研究的熱點(diǎn),而文字識(shí)別是計(jì)算機(jī)的重要組成部分。我們生活當(dāng)中文字是無處不在的,可以說離開了文字我們衣食住行各方面都會(huì)很不方便。

      首先,文字并非自然產(chǎn)生,而是人類特有的造物,是高層語義信息的載體,文字從整個(gè)文化的角度來講也是非常重要的,人類的文明離不開文字,文字是我們學(xué)習(xí)知識(shí)、傳播信息、記錄思想很重要的載體,沒有文字人類的文明無從談起。比如說王羲之的“蘭亭序“,不只是文化作品,也是人類歷史上璀璨的明珠之一。比如詩經(jīng),通過詩經(jīng),我們既可以學(xué)習(xí)它郎朗上口的文學(xué)特性,也可以通過它了解兩千年前歷史的故事和先人的思想。

      右邊的兩幅圖呢,是我自己拍的啊,里面有建筑、有場景、有樹木,如果僅僅看到這兩幅圖,相信大家并不知道這是在說什么,但是結(jié)合了文字之后,我們可以一目了然的看到要講的內(nèi)容。所以說文字是計(jì)算機(jī)視覺的重要線索,與其他視覺信息有重要的互補(bǔ)作用,可以和對(duì)話、NLP等,合成多模態(tài)語義分析。

      首先讓我們看一個(gè)概念,光學(xué)字符識(shí)別,英文是OCR。光學(xué)字符識(shí)別是指把圖片、PDF中的文字轉(zhuǎn)換成可編輯的文字,也就是通常所說的文字識(shí)別,因?yàn)槿绻覀冎惶峁鈱W(xué)字符識(shí)別。我估計(jì)很多人不知道這是什么意思,所以大家通常把光學(xué)字符識(shí)別說成為文字識(shí)別。實(shí)際呢,一般包括檢測和識(shí)別等多個(gè)過程。文字檢測呢,是指,判斷是否存在文字實(shí)例,并給出具體位置的過程。而文字識(shí)別是指把文字區(qū)域轉(zhuǎn)化成計(jì)算機(jī)可讀和編輯的符號(hào)。

      方法呢,有很多,一種是基于手工設(shè)計(jì)的特征,這個(gè)在2014年前是主流的方法,比如MSER,SIFT等,2014年之后,大家主要用的方法是深度學(xué)習(xí)。左邊這兩張圖分別是把發(fā)票和文檔轉(zhuǎn)化成文字。

      下面是華為云的OCR處理流程,融合了多種圖像處理技術(shù),具有高精度,魯棒性和自適應(yīng)性等特點(diǎn)。文字識(shí)別精度特別高,支持錯(cuò)行,蓋章,文字疊加等復(fù)雜場景,支持多種類型單據(jù),自適應(yīng)不同質(zhì)量圖片。整個(gè)流程呢,主要是如下,包括圖像預(yù)處理,表格提取,有沒有表格進(jìn)一步處理,文字定位,其中可能會(huì)有文字矯正,文字識(shí)別,文字后處理等,最后返回給客戶的是結(jié)構(gòu)化的json數(shù)據(jù)。

      文字和檢測和識(shí)別的難點(diǎn)非常的多,首先呢,大家可以看一下這張圖,它的背景非常的復(fù)雜,有各種字體;顏色呢,也是多種多樣的,比如說白色,比如說是金色,比如說是黑色。方向呢,也是多種朝向,比如說是豎直、傾斜、水平等等,大小也各不相同,比如說這個(gè)路牌兒。語言也不統(tǒng)一,我們常見的是中文和英文,但是在海外也會(huì)出現(xiàn)各種其他語言組合,比如阿拉伯語、泰語啊。模板也不固定,不只是場景文字,即使我們的文檔也會(huì)有各種各樣的文檔。

      文字識(shí)別在計(jì)算機(jī)視覺的重要性、基本技術(shù)和最新進(jìn)展(OCR系列一)

      日常生活的指示欄、窗戶、磚塊、圖標(biāo)、花草、柵欄、樹木、機(jī)電等都與文字有一定的相似性,給檢測和識(shí)別帶來很大的干擾。

      圖像本身和成像也會(huì)存在的問題,比如分比率、曝光、反光、局部遮擋、干擾等,給檢測和識(shí)別帶來很大的挑戰(zhàn)。

      深度學(xué)習(xí)時(shí)代的文字和檢測和識(shí)別,主要是基于深度學(xué)習(xí)。其中的文字檢測,和目標(biāo)檢測類似,主要是基于物體檢測和基于分割。比如說我們左上邊看到的textbox是基于SSD目標(biāo)檢測網(wǎng)絡(luò),主要改了anchor的設(shè)置。左下圖的pixellink,則是基于分割。其中基于目標(biāo)檢測呢,更多是側(cè)重比較規(guī)整的、可以用四點(diǎn)表示的。而分割呢,更多傾向于各種不規(guī)則形狀的文字。

      文字識(shí)別呢,最常用的思想是把文字分成一個(gè)個(gè)字符,然后直接分類,這是以前傳統(tǒng)方法最常用的技術(shù)之一。中間一個(gè)呢,也是基于分類,但是是基于單詞的,對(duì)整句話非常難以處理好。最后呢,是基于序列的特征,提取基本特征,比如說CTC,是參考語音識(shí)別的,比如說Attention,比如說基于sequence2sequence。還有一點(diǎn)呢,就是端到端,這個(gè)是在一個(gè)網(wǎng)絡(luò)里同時(shí)做到文字檢測和識(shí)別,檢測和識(shí)別可以相輔相成,提高性能。

      這是華中科技大學(xué)許老師等做的工作,提出一個(gè)TextField的概念,就是文字方向場的概念,傳統(tǒng)基于分割的文字檢測方法有一個(gè)很大的局限性就是對(duì)密集文本無法有效區(qū)分開,他們提出一個(gè)文字方向場,基于像素做回歸,然后通過后處理組合成一個(gè)文字條,對(duì)于彎曲特別離譜的文字都可以檢測出來。許老師是我們的合作老師之一。

      在文字識(shí)別當(dāng)中非常有代表性的一個(gè)方法是就是華中科技大學(xué)白老師團(tuán)隊(duì)做的CRNN模型(后正式發(fā)表在IEEE TPAMI2016上),稱之為?CRNN,其底層用?CNN?提取特征,中層用?LSTM?進(jìn)行序列建模,上層用?CTC? loss?對(duì)目標(biāo)進(jìn)行優(yōu)化。它是一個(gè)端到端可訓(xùn)練的文字識(shí)別結(jié)構(gòu),但并未使用?Attention。目前,CRNN?已成長為該領(lǐng)域的一個(gè)標(biāo)準(zhǔn)方法。白老師也是我們合作的老師之一。

      AI 文字識(shí)別

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:RH7.9安裝部署GreenPlum 6
      下一篇:Python:數(shù)據(jù)提取之JSON與JsonPATH
      相關(guān)文章
      爱情岛论坛亚洲品质自拍视频网站| 亚洲日日做天天做日日谢| 亚洲狠狠色丁香婷婷综合| 亚洲天堂2016| 亚洲成aⅴ人片在线影院八| 亚洲国产一区二区a毛片| 亚洲av无码潮喷在线观看| 国产精品久久久亚洲| 精品亚洲综合久久中文字幕| 国产aⅴ无码专区亚洲av| 亚洲va中文字幕无码久久| 亚洲国产精品成人精品无码区| 国产精品亚洲片在线| 久久亚洲精品视频| 亚洲国产人成网站在线电影动漫| 亚洲AV无码一区二区乱孑伦AS| 亚洲伦另类中文字幕| 亚洲综合精品一二三区在线| 亚洲酒色1314狠狠做| 亚洲老熟女@TubeumTV| 亚洲国产综合第一精品小说| 亚洲国产精品网站久久| 亚洲国产成人超福利久久精品 | 老色鬼久久亚洲AV综合| 亚洲国产人成在线观看69网站| 亚洲一区中文字幕久久| 亚洲美女自拍视频| 亚洲AV无码乱码在线观看富二代| 亚洲毛片αv无线播放一区| 曰韩亚洲av人人夜夜澡人人爽| 亚洲国产成人片在线观看无码 | 国产亚洲免费的视频看| 亚洲日韩激情无码一区| 久久亚洲精品无码| 亚洲第一页中文字幕| 亚洲午夜在线播放| 亚洲av色香蕉一区二区三区| 国产亚洲精品免费| 最新国产AV无码专区亚洲 | 亚洲av无码一区二区三区乱子伦 | 亚洲中文无韩国r级电影|