2019數(shù)字中國(guó)創(chuàng)新大賽:文化傳承漢字書法多場(chǎng)景識(shí)別賽題解讀
2019年5月6日至8日,第二屆數(shù)字中國(guó)建設(shè)峰會(huì)將在福州海峽國(guó)際會(huì)展中心舉行。本屆峰會(huì)的主題是“以信息化培育新動(dòng)能 用新動(dòng)能推動(dòng)新發(fā)展 以新發(fā)展創(chuàng)造新輝煌”。峰會(huì)定位為我國(guó)信息化發(fā)展政策發(fā)布平臺(tái)、電子政務(wù)和數(shù)字經(jīng)濟(jì)發(fā)展成果展示平臺(tái)、數(shù)字中國(guó)建設(shè)理論經(jīng)驗(yàn)和實(shí)踐交流平臺(tái)、匯聚全球力量助推數(shù)字中國(guó)建設(shè)的合作平臺(tái)。
具體內(nèi)容解讀:
我們是華為云EI企業(yè)智能體,是華為云的大數(shù)據(jù)與人工智能團(tuán)隊(duì),提供其中包括昇騰芯片、MindSpore框架、ModelArts平臺(tái),以及上層API的全棧式服務(wù)。我們一共有超過(guò)45項(xiàng)產(chǎn)品,一百多項(xiàng)功能,文字識(shí)別就是我們一個(gè)重要產(chǎn)品之一。
我們OCR服務(wù)包括通用類,票據(jù)類,證件類,行業(yè)類,模板定制等,服務(wù)國(guó)內(nèi)和泰國(guó)、新加坡等眾多國(guó)外內(nèi)客戶。
書法是中國(guó)的瑰寶,是中華民族對(duì)人類審美的偉大貢獻(xiàn)。在全球化里、電子化今天,很多人,尤其是很多青年學(xué)生,大家對(duì)書法越來(lái)越陌生,基于書法的文化傳承出現(xiàn)斷層。相信大家都聽(tīng)過(guò)王羲之的蘭亭序,這不僅是杰出書法作品,也是中國(guó)歷史、乃至世界歷史上杰出的文化瑰寶之一。針對(duì)這個(gè)問(wèn)題,我們提出了文化傳承這個(gè)賽題。我們希望從這個(gè)賽題讓參賽者系統(tǒng)學(xué)習(xí)和利用人工智能技術(shù),因?yàn)檫@里要用到人工智能非常重要的兩個(gè)能力,一個(gè)是物體檢測(cè)、一個(gè)是把圖片轉(zhuǎn)化為文字的序列化算法。同時(shí)讓大家感受傳統(tǒng)中國(guó)文化。
文字識(shí)別本身有其巨大的社會(huì)商業(yè)價(jià)值,比如金融行業(yè)的票據(jù)識(shí)別、醫(yī)療行業(yè)的化驗(yàn)單識(shí)別、物流行業(yè)的快遞單識(shí)別、自動(dòng)駕駛的路牌識(shí)別等。我們現(xiàn)在在跟故宮合作,解決古代書法的識(shí)別,跟這個(gè)賽題切合。
文字識(shí)別應(yīng)用場(chǎng)景非常廣泛,包括物流與制造業(yè),金融保險(xiǎn),醫(yī)療教育,政務(wù)政法,互聯(lián)網(wǎng),總之所有有文檔的地方都需要文字識(shí)別,代替人工錄入,提升業(yè)務(wù)信息化效率。這也非常契合國(guó)家工業(yè)4.0戰(zhàn)略,用機(jī)器代替復(fù)雜煩瑣的人工工作。
賽題難點(diǎn)有以下幾點(diǎn)。首先賽題數(shù)據(jù)為模擬古文寫作風(fēng)格生成的書法類型的圖片,基本是按照文字豎列標(biāo)注的,與日常習(xí)慣差別很大。
其次個(gè)別字符在測(cè)試集里出現(xiàn)了,但在訓(xùn)練集卻沒(méi)有出現(xiàn),相關(guān)字段識(shí)別錯(cuò)誤的可能性極大。
第三有近上萬(wàn)個(gè)字符,需要分類的數(shù)量很大;同時(shí)因?yàn)闈h字形近字較多,及其容易識(shí)別錯(cuò)誤。
第四圖片場(chǎng)景非常復(fù)雜,對(duì)文字識(shí)別形成強(qiáng)烈的干擾;文字存在扭曲、傾斜、大小差別很大等特點(diǎn)。
賽題評(píng)判標(biāo)準(zhǔn)為文字字段識(shí)別F1值,即參賽者不僅需要保證整個(gè)字段完全正確,需要同時(shí)保證字段識(shí)別結(jié)果的precision和recall。
賽題結(jié)果還是比較令人滿意的,前兩名成績(jī)都是98%以上,比我們預(yù)期的96高了不少的。可見(jiàn)選手能力都是非常強(qiáng)的,最后我們希望通過(guò)這次比賽能夠讓參賽者參與人工智能新挑戰(zhàn),弘揚(yáng)中華民族傳統(tǒng)文化,預(yù)祝大賽圓滿成功。謝謝大家。
人工智能 企業(yè)數(shù)字化
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。