如何處理數(shù)據(jù)?

      網(wǎng)友投稿 665 2025-04-02

      有研究表明,全球數(shù)據(jù)總量每兩年翻一番,各企業(yè)都在處理和存儲這些海量數(shù)據(jù)。這些數(shù)據(jù)主要由結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等類型數(shù)據(jù)構(gòu)成。企業(yè)對數(shù)據(jù)了解得越透徹,就能夠越準確地判斷數(shù)據(jù)的價值及風險。

      結(jié)構(gòu)化的數(shù)據(jù):即有固定格式和有限長度的數(shù)據(jù)。例如填的表格就是結(jié)構(gòu)化的數(shù)據(jù),國籍:中華人民共和國,民族:漢,性別:男,這都叫結(jié)構(gòu)化數(shù)據(jù)。對于ICT領(lǐng)域來說,就是以固定的格式存儲到數(shù)據(jù)庫里的數(shù)據(jù)(Oracle/MySQL/…)。

      半結(jié)構(gòu)化數(shù)據(jù):是一些 XML 或者 HTML 的格式的,當根據(jù)需要可按結(jié)構(gòu)化數(shù)據(jù)來處理,也可抽取出純文本按非結(jié)構(gòu)化數(shù)據(jù)來處理。

      非結(jié)構(gòu)化的數(shù)據(jù):就是不定長、無固定格式的數(shù)據(jù),例如網(wǎng)頁,郵件,有時候非常長;有時候非常短,幾句話就沒了;例如Word文檔、語音,視頻、圖片都是非結(jié)構(gòu)化的數(shù)據(jù)?,F(xiàn)在非結(jié)構(gòu)化的數(shù)據(jù)居多。

      為了描述方便,我們把半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),合二為一統(tǒng)稱為“暗數(shù)據(jù)”,當然這個詞不是我起的,是AA公司起的名字。AA(Automation Anywhere)公司于2003年最初由Ankur Kothari,Mihir Shukla,Neeti Mehta和Rushabh Parmani在加利福尼亞州圣何塞的Tethys Solutions,LLC成立。該軟件公司在10多個國家/地區(qū)開展業(yè)務,開發(fā)適用于領(lǐng)先金融服務,業(yè)務流程外包,醫(yī)療保健,技術(shù)和保險公司的機器人過程自動化技術(shù)的產(chǎn)品。在RPA領(lǐng)域市場份額第一,全球最大的RPA生態(tài),培訓并認證超過10,000名RPA人員。

      AA公司統(tǒng)計“暗數(shù)據(jù)”占比達80%,就像下圖冰山在水下的部分。這些暗數(shù)據(jù),導致信息是斷裂的,傳統(tǒng)的自動化不能訪問。業(yè)界最頭疼的就是如何處理這部分數(shù)據(jù)?

      目前傳統(tǒng)的公司,在處理暗數(shù)據(jù)的時候,采用的是笨辦法,想辦法把非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)?;蛘吒纱啵蟛糠止臼亲屵@些暗數(shù)據(jù)躺在數(shù)據(jù)湖里沉睡中,沒有任何用處,反而還浪費了存儲和維護資源。像我們的站點數(shù)據(jù)、設(shè)備數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、操作數(shù)據(jù),大部分都是暗數(shù)據(jù)。我們現(xiàn)在花大力氣在想辦法結(jié)構(gòu)化,這可能是最笨的辦法。費時費力,結(jié)果還很差。

      其實單純的RPA做的工作非常有限,RPA主要是處理結(jié)構(gòu)化和流程化的數(shù)據(jù),不能處理“暗數(shù)據(jù)”。利用AI技術(shù),就可以處理圖片、郵件等暗數(shù)據(jù),同時AI還可以隨機應變的處理一些突發(fā)的流程。

      下面列舉了AI和RPA的差異點:

      RPA處理數(shù)據(jù)的類型和能力范圍

      AI處理數(shù)據(jù)的類型和能力范圍

      模仿用戶的活動

      模仿人類思維過程,視覺,語言和模式識別

      可以處理結(jié)構(gòu)化和一些半結(jié)構(gòu)化數(shù)據(jù)

      可以處理結(jié)構(gòu)化,半結(jié)構(gòu)化,和非結(jié)構(gòu)化數(shù)據(jù)

      基于規(guī)則的自動化

      可以通過“學習”改變其行為動作(隨機應變能力)

      高度確定性

      通過概率計算,使其具有確定性

      代理協(xié)助或數(shù)字勞動模型

      點解決方案?-?不是廣泛的能力(窄AI)

      AA這家公司把AI和RPA結(jié)合起來,處理暗數(shù)據(jù)。使用的關(guān)鍵技術(shù)如下:

      1:語音識別:主要處理對話、錄音、音頻等文件。

      2:NLP:主要處理文本、郵件、文檔等文件。

      3:計算視覺:主要處理圖片、PDF中嵌入的圖片等信息。

      4:機器學習&深度學習:主要通過“學習”,處理一些異常事件,讓流程能正常流轉(zhuǎn),像人一樣,能靈活處理問題。

      推出了IQ-Bot的解決方案。IQ Bot?是人工智能(AI)解決方案,業(yè)務用戶可以輕松設(shè)置和使用,以更快地自動讀取和處理各種復雜的文檔和電子郵件。另外,IQ Bot通過構(gòu)建的自動化認知,可與IBM Watson/Google Cloud AI/MS Cognitive Service等AI解決方案集成,以彌合RPA與純認知平臺之間的差距。

      在其主頁上呈現(xiàn)的IQ BOT解決方案的示例如圖,重點是想說明IQ Bot是一座橋梁,可以連接RPA和認知平臺:

      使用IQ-Bot前后對比

      AI能夠以內(nèi)容為中心實現(xiàn)流程自動化,使AI成為理想的RPA的補充技術(shù)。?使用兩者的組合,組織可以端到端自動化流程,例如使用AI,解析,分類和理解語義或情緒,并將所需的行動傳遞給RPA。?例如:完成使用AI為客戶撰寫確認函/文本或電子郵件等案例。

      1:許多流程需要理解語義。利用AI中的NLP技術(shù)理解句子的結(jié)構(gòu),語義和意圖。

      通過統(tǒng)計方法和機器學習。NLP將文本轉(zhuǎn)換為數(shù)據(jù),反之亦然,允許人與人之間有意義的互動。它包括自然語言理解和生成,例如:保險公司處理索賠、銀行抵押貸款,這些都需要補充材料,包括圖片(身份證信息)、表格信息、郵件信息、文本信息等等,這些都是非結(jié)構(gòu)化信息,很難直接使用RPA自動化,影響了這個流程的效率。文本,電子郵件,信件和圖像,首先通過NLP和圖像識別技術(shù)以便進一步處理。

      2:利用計算機視覺技術(shù)自動提取,分析圖片,轉(zhuǎn)換成語義。

      從單個圖像或一系列圖像(包括掃描文檔)中理解有用信息,實現(xiàn)自動視覺理解。

      3:通過ML(Machine Learning)來實現(xiàn)一些靈活化處理問題的能力。

      如何處理暗數(shù)據(jù)?

      通過算法來實現(xiàn)人處理問題的靈活性,無需明確固定的流程,可以通過“學習”來靈活處理,具備隨機應變的處理機制,避免通過系統(tǒng)對接傳遞大量數(shù)據(jù)。

      這多年過去了,整個電信業(yè)界就沒有搞定網(wǎng)絡(luò)拓撲,特別是跨域和跨廠商的。我一直認為,通過采集上來的現(xiàn)有公開數(shù)據(jù)(不同廠商肯定有網(wǎng)管系統(tǒng)),通過數(shù)據(jù)的拼接,是可以拼出一個拓撲的。大家覺得不可能。其實想想Google地圖,看看Google地圖是怎么做到的?地圖需要拼接的數(shù)據(jù)量肯定是網(wǎng)絡(luò)信息的很多倍,難度也大于網(wǎng)絡(luò)拓撲,但為什么地圖能搞出來,而一個拓撲就搞不出來呢?利用數(shù)據(jù)的拼接+AI技術(shù),是可以把整網(wǎng)跨廠商的網(wǎng)絡(luò)拓撲拼接出來的。

      IQ Bot:認知自動化機器人,是專門負責處理暗數(shù)據(jù),IQ Bot發(fā)現(xiàn)和轉(zhuǎn)換隱藏數(shù)據(jù),以更快,更高效地自動化業(yè)務流程,同時消除人為錯誤。

      大數(shù)據(jù) AI

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:一個文件中插入了較多的形狀,如何快速將這些對象給刪除
      下一篇:如何解決保存Excel文件彈出隱私問題警告(excel中保存時老是提示隱私警告)
      相關(guān)文章
      波多野结衣亚洲一级| 久久精品国产亚洲AV麻豆网站 | 亚洲熟伦熟女专区hd高清| 亚洲欧洲视频在线观看| 亚洲精品无码国产| 国产亚洲精品91| 亚洲av综合av一区二区三区| 亚洲午夜理论片在线观看| 亚洲最大免费视频网| 亚洲国产精品成人综合色在线婷婷 | 亚洲精品国产精品国自产网站 | 亚洲色图综合在线| 亚洲国产综合无码一区二区二三区 | 亚洲色欲或者高潮影院| 77777_亚洲午夜久久多人| 久久精品亚洲一区二区三区浴池 | 亚洲国产综合久久天堂| 亚洲午夜激情视频| 亚洲精品高清一二区久久| 亚洲精品视频免费观看| 亚洲中文字幕伊人久久无码| 亚洲一区二区三区国产精品| 亚洲中文字幕无码一区二区三区| 亚洲精品无码久久久久sm| 亚洲第一视频网站| 亚洲人成网站日本片| 中文字幕无码亚洲欧洲日韩| 亚洲AV无码片一区二区三区| 亚洲精品人成网线在线播放va | 蜜芽亚洲av无码精品色午夜| 亚洲视频免费播放| 亚洲香蕉在线观看| 激情无码亚洲一区二区三区| 亚洲国产av一区二区三区| 国产乱辈通伦影片在线播放亚洲 | 亚洲av手机在线观看| 亚洲区不卡顿区在线观看| 国产亚洲精品无码成人| 亚洲最大的成网4438| 亚洲二区在线视频| 亚洲精品蜜夜内射|